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数据 科学 家 ， 计 算 机 科学 博士 ， 网 络 
犯罪 问题 和 文本 分 析 方 面 的 专家 ， 拥 
有 多 年 Python 编程 经 验 ， 参 与 开发 过 
scikit-learn 库 等 众多 开源 软件 ， 曾 担任 
2014 年 “谷歌 编程 之 夏 ” 项 目 导 师 ， 也 
曾 多 次 在 PyCon AU 上 做 报告 。 他 创立 了 
数据 分 析 公 司 DataPipeline 以 及 为 创业 
公司 提供 技术 咨询 和 支持 的 Eurekative 


公司 ， 还 运营 着 LearningTensorFlow 
网 站 。 


毕业 于 西安 电子 科技 大 学 通信 工程 专 
业 ， 获 工学 学 士 学 位 ， 现 为 业余 Python 
开发 者 ，Sphinx 中 文本 地 化 团队 协调 
员 ， 是 Flask 文 档 译 者 。GitHub 账 号 : 
yinian1992 。 
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本 书 以 实践 为 宗旨 ， 对 数据 挖掘 ; 
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内 容 提要 





























行 了 详细 的 入 门 引 导 。 本 书 圳 括 了 比赛 结果 预测 、 电 影 








佳 荐 、 特 征 











提取 、 好 友 推 荐 、 破 解 验证 码 、 作 者 归属 、 新 闻 聚 类 等 大 量 经 典 案 例 ， 并 以 此 为 基础 提供 了 大 量 练习 和 额 


外 活动 。 在 练习 中 ， 本 和 
掘 指明 了 方向 。 














本 书 适 合 希望 用 Python 进行 数据 挖掘 的 程序 员 阅 读 。 
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区 介绍 了 数据 挖掘 的 基本 工具 和 基本 方法 ; 在 额外 活动 中 ， 本 书 为 深入 了 解数 据 挖 


来 
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译 者 厅 











随 着 计算 机 性 能 的 提升 和 通信 技术 的 发 展 , 分 布 式 计算 、 图 形 处 理 单元 上 的 通用 计算 、 云 计 
算 等 领域 的 产业 化 日 至 成 熟 , 大 数据 的 处 理 能 力 已 今 非 昔 比 。 互 联网 行业 依托 于 服务 业 的 内 在 属 
性 ,每 时 每 刻 都 在 产生 大 量 交易 、 定 位 、 评 价 等 种 类 繁多 的 数据 。 这 些 数据 积累 沉 洗 成 体 量 庞大 
的 信息 资产 ， 让 我 们 能 理性 地 洞悉 各 种 现象 ， 给予 我 们 更 多 探寻 其 本 源 的 方法 ,指引 我 们 进行 未 


















































秘 英 测 、 无 法 计算 的 力量 在 起 作 上 月 
数据 时 代 。 大 数据 不 仅 完成 了 对 世界 的 祛 丘 ,其 本 身 也 逐渐 褪 
主义 的 手段 与 方法 , 完成 了 对 自身 的 祛 魅 。 本 书 就 是 从 这 相 




















9 决策。 现今 ,互联 网 行业 鞍 勃 发 展 ， 几 乎 把 我 们 身边 的 一 切 细 枝 末节 都 纳入 了 人 掌控， 现代 生 
的 个 体 无 一 例外 都 成 了 大 数据 的 一 部 分 , 因而 无 时 无 刻 不 在 享受 着 大 数据 时 代 的 红利 。 正 如 马 
克 斯 . 韦伯 所 言 :“ 只 要 人 们 想 知道 ， 他 们 任何 时 候 都 能 够 知道 ， 从 原则 上 说 ， 再 也 没有 什么 神 
日 ， 人 们 可 以 通过 计算 掌握 一 切 。” 可 以 说 ,我 们 已 经 步 和 人 了 大 


















































入 手 ， 来 讲解 一 门 能 从 数据 中 发 现 知识 与 规律 的 技术 一 一 数据 挖掘。 




















数据 挖掘 是 计算 机 科学 的 一 个 分 支 ,也 是 一 个 多 学 科 交 叉 的 领域 ， 


虚无 绿 缉 的 概念 外 衣 ， 回 归 实 用 
fF 的 实用 角度 出 发 ， 由 一 系列 实战 案例 


涉及 统计 学 、 语 言 学 、 机 














器 学 习 、 神 经 网 络 等 多 学 科 的 知识 。 在 具体 的 应 用 实践 中 , 由 于 我 们 不 仅 需要 了 解 具 体 领 域 的 专 
业 知 识 , 还 要 应 对 数据 本 里 的 问题 所 带 来 的 挑战 ,因而 想 要 取得 优异 的 成 果 绝 非 易 事 。 不 过 不 必 
担心 ,由 于 本 书 是 面向 程序 员 群 体 的 ， 因 而 将 尽量 绕 开 星 涩 难 懂 的 数学 语言 , 平 铺 直 叙 、 化 繁 为 
简 。 本 书 的 各 章 将 以 问题 为 导向 ， 通 过 实例 介绍 关联 规则 学 习 、 分 类 、 聚 类 等 常见 的 数据 按 掘 任 
务 。 你 可 以 跟随 本 书 实际 动手 ,逐一 剖析 问题 的 内 核 , 不 断 尝试 、 比 较 不 同 的 方法 ， 从 而 体会 解 


决 问题 的 思路 ,一 探 数据 挖掘 的 究竟 。 学 完 本 书 ,想必 你 会 对 数据 挖掘 的 理论 和 实际 应 用 有 清晰 


























而 具体 的 理解 。 


本 书 以 Python 为 媒介 ， 解 析 了 数据 挖掘 任务 中 的 各 个 步骤 。Python 是 一 门 解释 型 的 通用 编 












































程 语言 ， 文 持 多 种 编程 范式 ， 拥 有 动态 类 型 系统 和 简明 可 读 的 语法 ， 且 易于 上 手 。 其 自 带 的 标准 
库 功 能 广泛 ， 可谓“ 开 箱 即 用 ”( batteries included )。 此 外 ，Python 社区 气氛 活跃 ， 第 三 方 库 不 可 


胜 数 ， 能 应 对 各 种 各 样 的 应 有 


























日 场景 。 本 书 采用 Jupyter Notebook 作为 开发 代码 、 运 行 应 用 、 展 现 


结果 的 环境 。 与 专注 于 开发 的 IDE (集成 开发 环境 ) 不 同 ， 它 是 一 个 Web 形式 的 笔记 本 ， 交 互 


怕 











FE 强 、 灵 活性 好 、 易 于 分 享 ， 大 大 简化 了 工作 流程 ， 因 而 备 受 数 据 挖 提 


遇 领 域 的 青睐 。 


本 书 第 2 版 在 第 1 版 基础 上 进行 了 扩充 ,其 章节 安排 基本 一 致 。 除 了 丰富 了 动手 实验 的 部 分 





以 外 , 还 紧 跟 技术 发 展 潮流 , 换 用 了 3.5 版 本 的 Python。 当 然 , 书 中 还 会 出 现 Keras 和 TensorFlow 
的 身影 。 这 两 个 库 在 深度 学 习 领 域 可 谓 大 名 易 易 。 


本 书 中 的 示例 涵盖 了 数 个 行业 的 应 用 场景 , 也 引入 了 结构 连 异 的 不 同 数据 集 ， 其 中 就 包括 在 
数据 挖掘 领域 版 有 名 气 的 芒 尾 数据 集 、MovieLens 数据 集 、CIFAR-10 数据 集 等 。 另 外 ， 还 有 从 
Twitter 、reddit 等 网 站 采集 的 数据 集 。 你 在 第 8 章 还 要 动手 生成 一 个 数据 集 。 本 书 各 章 以 数据 集 
为 起 点 , 探究 数据 集 的 源头 与 处 理 方法 , 解决 数据 集 本 身 带 来 的 问题 ,为 顺利 执行 数据 挖 气 任 务 
打下 了 坚实 的 基础 。 


本 书 针对 商品 推荐 、 结 果 预 测 、 内 容 聚 类 等 形形色色 的 现实 问题 ， 不 仅 运 用 了 包括 决策 树 、 
朴素 贝 叶 斯 、 支 持 向 量 机 、 友 均值 算法 在 内 的 经 典 数据 挖 气 算 法 ， 还 跟随 时 代 潮 流 ， 利 用 云 计算 
和 MapReduce 模型 带 来 的 性 能 优势 搭建 深度 神经 网 络 ， 出 色 地 完成 了 数据 挖掘 任务 。 此 外 ， 本 
书 还 介绍 了 多 种 距离 度量 、 评 佑 指标 以 及 测试 方法 与 工具 ， 并 在 那些 性 能 依 关 的 地 方 给 出 提示 ， 
详细 解读 了 关键 代码 的 工作 原理 。 在 本 书 的 最 后 ， 作 者 还 不 忘 为 你 进一步 的 学 习 指 明 方向 。 


我 与 Python 结缘 是 在 大 学 时 。 我 虽然 不 在 计算 机 专业 , 却 因 对 Web 开发 感 兴趣 接触 了 Django 
和 Flask 两 个 框架 。 从 此 ,我 被 Python 的 魅力 所 吸引 ， 并 把 它 作为 我 的 主力 编程 语言 ， 帮 助 我 完 
成 了 包括 通信 系统 仿真 在 内 的 各 种 任务 。 我 还 翻译 了 Flask 和 相关 库 的 文档 ， 并 因 翻 译 中 遇 到 的 
问题 ,给 Python 的 文档 构建 工具 Sphinx 提交 补丁 ,成 为 了 Sphinx 项 目的 简体 中 文本 地 化 团队 协 


虽然 我 有 过 翻译 技术 文档 的 经 历 ， 但 总 归 不 够 正式 ， 也 未 尝试 过 翻译 话题 如 此 广泛 的 图 书 。 
在 翻译 本 书 的 过 程 中 ,我 得 到 了 身边 亲友 的 大 力 支 持 。 能 完成 这 样 一 本 书 的 翻译 , 实 属 环 注 。 在 
此 ,我 要 感谢 南京 大 学 软件 学 院 研究 生 李 雪 菲 同学 ,她 给 了 我 很 多 指导 和 帮助 , 尤其 是 提供 了 一 
些 数据 挖掘 领域 的 专业 见解 。 感 谢 我 的 好 友 周 慧 群 全 程 帮助 我 审读 译 稿 ,排查 错误 。 感 谢 我 的 父 
母 给 予 我 黄 大 的 支持 和 鼓励 。 衷 心 感谢 图 灵 公 司 的 各 位 编辑 细致 人 微 的 审阅 ,辛苦 了 ! 


书 中 的 部 分 术语 尚 无 固定 译 法 , 我 尽量 参照 了 现 有 的 科学 技术 名 词 规范 或 惯用 译 法 ,但 难免 
有 不 当 之 处 。 译 文中 的 错误 和 玻 漏 之 处 ， 敬 请 批评 指正 。 
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前 


了 中 


在 本 书 第 2 版 的 写作 过 程 中 , 我 时 刻 以 程序 员 的 需要 为 出 发 点 。 本 书面 向 程序 员 群 体 ,致力 
于 向 广大 程序 员 介 绍 数据 控 气 技术。 我 认为 ,数据 挖掘 技术 对 于 计算 机 科学 领域 的 所 有 从 业 人 士 











来 说 都 不 可 或 缺 , 因为 它 正 迅速 成 为 下 一 代 人 工 
统 ， 也 会 使 用 它们 、 与 它们 产生 联系 、 接 受 它们 的 指引 。 人 工 智能 系统 的 幕后 过 程 是 重 中 之 重 ， 
理解 该 过 程 有 助 于 你 发 挥 这 些 系 统 的 最 大 效用 。 

















智能 


系统 的 基石 。 你 即便 不 亲自 构建 人 工 智能 系 




















由 于 第 2 版 在 第 1 版 的 基础 上 编写 ， 因 而 许多 章节 和 练习 与 第 1 版 中 类 似 , 但 是 第 2 版 中 引 


























A 


入 了 一 些 新 的 概念 ,扩大 了 练习 所 涉及 的 范围 。 匈 


了 1 版 的 读者 应 该 能 迅速 读 完 本 书 , 轻松 掌握 新 





的 知识 ， 然 后 参加 本 书 建议 的 额外 活动 。 而 新 读者 则 可 以 多 花 一 些 时 间 ， 解 答 习题 并 动手 实验 。 
你 可 以 随意 拆 解 本 书 中 的 代码 以 加 深 理解 。 如 有 疑问 ， 可 以 联系 我 寻求 帮助 。 


由 于 本 书 是 面向 程序 员 群 体 的 ， 因 此 我 假定 你 已 经 掌握 了 关于 编程 与 Python 的 知识 。 有 鉴 
于 此 ， 除 非 Python 代码 的 意义 不 明确 ， 和 否则 本 书 将 不 会 详细 解释 其 工作 机 制 。 


本 书 内 容 





第 1 章 ， 数 据 挖掘 入 门 ， 介 绍 本 书 中 将 会 用 到 的 技术 ， 并 从 实现 两 个 基础 算法 入手 。 


第 2 章 , 用 scikit-learn 估计 器 解决 分 类 问题 , 介 
此 外 ， 你 还 可 以 了 解 一 些 数据 结构 ， 这 有 助 于 你 顺利 完成 数据 挖掘 实验 。 


第 3 章 , 用 决策 树 预测 获胜 球 队 , 介绍 决策 树 和 随机 和 森林 这 两 个 新 算法 , 然后 创建 有 用 的 特 





征 ， 并 将 其 交 由 算法 来 预测 获 用 





E 的 球 队 。 








绍 一 种 重要 的 数据 挖 据 形式 一 一 分 类 。 








第 4 章 ,用 亲 和 性 分 析 推荐 电影 ， 着 眼 于 根据 既往 经 验 推荐 产品 的 问题 ， 并 介绍 Apriori 算法。 
第 5 章 , 特征 与 scikit-learn 转换 器 ,介绍 更 多 类 型 的 特征 ,以 及 如 何 处 理 不 同 的 数 


据 集 。 




















第 6 章 ， 用 朴素 贝 叶 斯 算法 探索 社交 媒体 ， 利 用 朴素 贝 叶 斯 算法 在 社交 媒体 网 站 Twitter 上 


自动 解析 文本 信息 。 





第 7 章 , 用 图 挖掘 实现 推荐 关注 ,应 用 聚 类 分 析 和 网 络 分 析 的 方法 , 在 社交 媒体 中 找 出 适合 
关注 的 人 。 


第 8 章 , 用 神经 网 络 识别 验证 码 , 介绍 如 何 提 取 图 像 中 的 信息 ,用 以 训练 神经 网 络 , 使 其 能 
从 图 像 中 识别 单词 和 字母 。 


第 9 章 , 作者 归属 问题 ,抽取 文本 特征 ,然后 用 支持 向 量 机 ( support vector machine,SVM ) 
判断 文档 的 作者 。 


第 10 章 ， 聚 类 新 闻 文章 ， 用 均值 (k-means ) 聚 类 算法 ， 根 据 内 容 对 新 闻 文 章 分 组 。 

第 11 章 ， 用 深度 神经 网 络 实现 图 像 中 的 对 象 检 测 ， 应 用 深度 神经 网 络 ， 判 定 图 像 中 显示 对 
象 的 类 型 。 

第 12 章 ， 大 数据 处 理 ， 关 注 在 大 数据 场景 中 应 用 数据 挖掘 算法 的 工作 流 ， 以 及 如 何 从 中 获 
取 有 用 的 见解 。 

附录 A, 下 一 步 工作 ， 回 顾 之 前 的 每 一 章 ， 并 提供 扩展 学 习 资源 ， 帮 助 读者 加 深 对 前 述 概念 
的 理解 。 























阅读 前 提 
终 庸 置疑， 你 需要 有 一 台 计 算 机 ， 或 者 至 少 能 接触 到 一 台 计算 机 ， 才 能 完成 对 本 书 内 容 的 学 


习 。 计算 机 的 配置 要 比较 新 , 但 也 不 必 过 高 ， 只 要 配备 任意 一 款 现代 处 理 器 ( 大 概 产 于 2010 年 以 
后 ) 和 4 GB 内存 就 可 以 了 。 即 便 是 在 性 能 差 一 些 的 系统 上 ， 也 几乎 可 以 运行 本 书 中 的 全 部 代码 。 


但 最 后 两 章 是 例外 。 在 这 两 章 中 ， 我 用 AWS ( Amazon Web Services ) 运行 代码 。 这 很 可 能 
会 产生 一 些 花费 , 不 过 比 起 在 本 地 运行 代码 ， 少 了 一 些 配 置 系统 的 工作 。 如 果 你 不 想 使 用 付费 的 
AWS, 本 书 用 到 的 工具 也 可 以 在 本 地 计算 机 上 安装 , 不 过 这 样 , 对 计算 机 的 配置 要 求 会 较 高 : 它 
必须 具备 2012 年 以 后 出 广 的 处 理 器 和 4 GB 以 上 的 内 存 。 

我 推荐 使 用 Ubuntu 操作 系统 。 尽 管 本 书 中 的 代码 在 Windows、Mac 和 其 他 Linux 发 行 版 中 
均 可 正常 运行 ， 但 是 如 果 你 使 用 Ubuntu 以 外 的 操作 系统 ， 可 能 需要 在 配置 或 安装 依赖 时 查阅 相 
关 文 档 。 

本 书 使 用 pip 来 安装 代码 ， 它 是 安装 Python 库 的 命令 行 工具 。 另 一 个 选项 是 Anaconda， 你 
可 以 登录 http://continuum.io 点 击 Download 下 载 它 。 


我 在 Python 3 中 测试 过 本 书 中 的 全 部 代码 ， 多 数 示 例 代码 无 须 修改 即 可 在 Python 2 中 运行 。 
如 遇 到 无 法 自行 处 理 的 问题 ， 可 以 通过 邮件 联系 我 解决 。 
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读者 对 象 

本 书 是 数据 挖掘 的 入 门 读物 ， 写 给 注重 从 应 用 上 手 的 程序 员 。 

如 果 你 从 未 涉足 编程 , 我 强烈 建议 你 在 阅读 本 书 之 前 至 少 了 解 一 下 编程 的 基础 知识 。 本 书 不 
会 介绍 编程 技巧 ， 也 不 会 花 太 多 篇 幅 论 述 代码 实现 细节 。 这 就 是 说 ， 虽 然 你 无 须 成 为 编程 专家 ， 
但 需要 具备 编程 的 基础 知识 才能 顺畅 地 阅读 本 书 。 

我 强烈 建议 你 在 阅读 前 积累 一 些 Python 编程 经 验 。 如 果 没 有 也 没关系 ， 请 尽管 阅读 ， 只 不 
过 你 需要 先 熟 悉 一 下 Python 代码 , 比如 看 看 用 Jupyter Notebook 编写 的 教程 。 在 Jupyter Notebook 
中 编写 代码 会 与 其 他 方式 ( 比如 在 成 熟 且 功能 完备 的 IDE 中 编写 Java 程序 ) 有 些 不 同 。 




































































排版 约定 


你 会 在 本 书 中 发 现 一 些 不 同 的 文本 样式 , 它们 区 分 了 不 同类 型 的 内 容 。 下 面 的 示例 解释 了 不 
同样 式 的 意义 。 

文本 中 的 代码 、 数 据 库 表 名 、 文 件 夹 名、 文件 名 、 文 件 扩展 名 、 路 径 名 、 用 户 输入 和 Twitter 
手柄 均 以 如 下 形式 呈现 :“ 下 一 行 代 码 读 取 链接 ， 并 传 给 aataset_filename () 函数 。 

代码 块 的 样式 如 下 。 

import numpy as np 


dataset filename = "affinity dataset.txt" 
X = np.loadtxt (dataset_filename) 


命令 行 输入 和 输出 的 样式 如 下 。 


$ conda install scikit-learn 


新 术语 和 重要 词汇 会 以 黑体 字 标明 。 而 在 屏幕 上 显示 的 词语 ( 比如 菜单 和 对 话 框 中 的 词语 ) 
会 采用 这 样 的 样式 :“ 为 了 下 载 新 模块 ， 请 点 击 文件 | 设置 | 项 目 名 称 | 项 目 解 释 器 。” 











OD 此 图 标 表示 警告 和 重要 注解 。 


ED 此 图 标 表示 提示 与 技巧 。 


读者 反馈 


我 们 非常 乐于 接受 读者 的 反馈 。 请 告诉 我 们 ,你 觉得 本 书 如 何 ， 喜欢 或 不 喜欢 哪些 内 容 。 我 














们 重视 读者 的 反馈 ， 这 有 助 于 我 们 写 出 真正 对 大 家 有 帮助 的 图 书 。 

一 般 的 反馈 可 以 直接 发 邮件 到 feedback@packtpub.com， 记 得 在 邮件 主题 中 注 明 书 名 。 

如 果 你 专 精 于 某 个 主题 , 并且 有 兴趣 撰写 图 书 或 供稿 ,请 参看 我 们 的 作者 指南 : https:/www. 
packtpub.com/authors。 
客户 支持 

请 为 拥有 一 本 Packt 出 版 的 书 而 骄傲 吧 ! 我 们 的 许多 服务 会 让 你 觉得 物 有 所 值 。 




















下 载 示 例 代码 


你 可 以 在 http://www.packtpub.com 登录 账号 ,下 载 本 书 的 示例 代码 。 如 果 你 是 从 别处 购买 本 
书 的 , 那么 请 在 http:/www.packtpub.com/support 注册 , 我 们 会 通过 电子 邮件 把 示例 代码 文件 发 送 


给 你 。 
下 载 示例 代码 文件 的 步骤 如 下 : 


(1) 访问 我 们 的 网 站 ， 用 邮箱 和 密码 登录 或 注册 账号 ; 
(2) 把 鼠标 指针 放置 在 顶部 的 SUPPORT 标签 上 ; 

(3) 点 击 Code Downloads & Errata; 

(4) 在 Search 框 中 输入 本 书 名 称 ; 

(5) 选择 本 书 以 下 载 示 例 代 码 文件 ; 
(6) 在 下 拉 菜 单 中 选择 本 书 的 购买 途径 ; 
(7) 点 击 Code Download。 


文件 下 载 完成 之 后 ， 请 确保 用 最 新 版 本 的 解压 工具 来 解压 缩 ， 解 压 工 具 如 下 。 





























口 Windows: WinRAR /7-Zip 

口 Mac: Zipeg /1iZip /UnRarX 

口 Linux: 7-Zip /PeaZip 

本 书 的 代码 包 也 托管 在 GitHub 上 : https://github.com/PacktPublishing/Learning-Data-Mining- 
with-Python-Second-Edition。 

GitHub 仓库 的 好 处 是 可 以 记录 下 任何 与 代码 相关 的 问题 (包括 软件 版 本 变化 带 来 的 问题 )， 
还 可 以 让 全 世界 的 读者 参与 代码 的 修改 工作 。 我 们 的 许多 其 他 图 书 和 视频 的 代码 包 也 托管 在 了 
GitHub 上， 欢迎 访问 : https://github.com/PacktPublishing/。 


为 了 避免 缩 进 出 现 问题 ， 不 要 直接 从 PDF 复制 代码 ， 请 运行 代码 包 中 的 文件 。 
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勘误 


尽管 我 们 全 力 确保 内 容 准确 无 误 , 但 出 错 在 所 难免 。 如 果 你 能 把 书 中 的 错误 反馈 给 我 们 ， 哪 
怕 只 是 文字 或 代码 上 的 错误 , 我 们 都 将 感激 不 尽 。 如 此 义举 不 仅 能 使 其 他 读者 受益 ,也 能 帮助 我 
们 在 本 书 的 后 续 版 本 中 改正 错误 。 如 果 你 发 现任 何 错误 ,请 访问 http://www.packtpub.com/submit- 
errata 反馈 给 我 们 ， 只 需 选 择 书 名 ， 并 点 击 Errata Submission Form 链接 ， 然 后 输入 勘误 建议 。” 
你 提交 的 勘误 建议 通过 验证 后 将 被 采纳 ， 然 后 会 被 上 传 到 我 们 的 网 站 ， 或 添加 到 现 有 勘误 表 中 。 






















































































要 查阅 之 前 提交 的 勘误 ， 请 访问 https://www.packtpub.com/books/content/support， 然 后 在 搜 
索 栏 中 输入 书 名 ， 之 后 在 Errata 部 分 就 可 以 找到 勘误 信息 。 





反 盗 版 


现今 ， 所 有 类 型 的 媒体 都 面临 互联 网 侵权 问题 。 在 Packt， 版 权 和 许可 证 受到 严格 保护 。 如 
果 你 在 互联 网 上 遇 到 任何 形式 的 盗版 Packt 作品 ， 请 立即 向 我 们 提供 地 址 或 网 站 名 称 等 线索 ， 以 
帮助 我 们 采取 补救 措施 。 























问题 


如 果 你 对 本 书 有 任何 方面 的 问题 , 请 发 邮件 到 questions@packtpub.com, 我 们 会 尽 全 力 解决 。 























电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电子 版 。 








Q@ 本 书 中 文 版 勘误 请 到 http://www.ituring.com.cn/book/2652 查看 和 提交 ， 本 书 彩色 图 片 也 请 到 该 网 址 查看 和 下 载 。 
一 一 编者 注 
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我 们 正在 以 人 类 历史 上 前 所 未 有 的 规模 收集 现实 世界 的 数据 。 伴 随 着 这 种 趋势 ,日常 生活 对 
于 这 些 信息 的 依赖 也 与 日 俱 增 。 我 们 现在 期 待 计算 机 能 够 完成 各 种 工作 一 一 翻译 网 页 、 精 准 地 预 
报 天 气 、 推 荐 我 们 可 能 感 兴 趣 的 书 、 诊 断 健康 问题 。 这 种 期 待 在 未 来 会 对 应 用 的 广度 和 效率 有 更 
高 的 要 求 。 数 据 挖掘 是 一 套用 数据 来 训练 计算 机 做 出 决策 的 方法 论 。 它 已 经 成 为 支撑 当今 许多 高 
科技 系统 的 骨干 技术 。 


Python 在 当下 大 为 流行 不 无 原因 。 它 既 给 予 开发 人 员 相 当 大 的 灵活 性 ， 还 包含 执行 各 种 任 
务 的 众多 模块 ， 并 且 Python 代码 比 用 其 他 语言 编写 的 代码 更 为 简洁 可 读 。Python 在 数据 挖掘 领域 
也 形成 了 规模 庞大 、 气氛 活 跃 的 社区 , 容纳 了 初学 者 、 从 业者 、 学 术 人 研究 人 员 等 各 种 身份 的 人 士 。 
本 章 会 介绍 如 何 用 Python 进行 数据 挖掘 工作 ， 其 中 包含 以 下 几 个 话题 。 
口 什么 是 数据 挖掘 ? 数据 挖掘 的 适用 场景 有 哪些 ? 
口 搭建 用 于 数据 挖掘 的 Python 环境 。 
口 亲 和 性 分 析 示 例 : 根据 消费 习惯 推荐 商品 。 
口 分 类 问题 示例 : 根据 尺寸 推 岂 植 物种 类 。 















































1.1 什么 是 数据 挖掘 


数据 挖掘 提供 了 一 种 让 计算 机 基于 数据 做 出 决策 的 方法 。 所 谓 的 决策 可 以 是 预测 明天 的 天 
气 、 拦 截 垃圾 邮件 、 识 别 网 站 的 语种 和 在 交友 网 站 上 找到 心仪 人 选 。 数据 挖掘 的 应 用 场景 有 很 多 ， 
而 且 人 们 还 在 不 断 地 发 据 扩 充 。 























数据 挖 据 涉 及 众多 领域 ， 包 括 算法 设计 、 统 计 学 、 工 程 学 、 最 优化 理论 和 计算 机 
科学 。 尽 管 数据 挖 气 结 合 了 这 些 领 域 的 基础 技能 ,但 我 们 在 特定 领域 中 应 用 数据 

种 挖 握 时 ， 仍 需要 结合 相应 的 领域 知识 ( 即 专业 知识 ) ”领域 知识 会 在 数据 挖 振 中 
起 到 画龙点睛 的 作用 。 要 想 提升 数据 挖 握 的 效益 , 免不了 要 把 领域 知识 与 算法 相 
往 全 


"Do 
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虽然 数据 挖掘 的 应 用 实现 细节 通常 差异 很 大 , 但 从 同样 的 高 度 来 看 , 它们 都 是 用 一 部 分 数据 
训练 模型 ， 然 后 再 把 模型 应 用 到 其 他 数据 中 。 


数据 挖掘 的 应 用 包含 创建 数据 集 和 算法 调 参 两 部 分 工作 ， 步 又 如 下 。 
(1) 首先 创建 数据 集 ， 用 来 描述 现实 世界 中 的 茶 一 方面 。 数 据 集 由 两 个 方面 组 成 。 


口 样本 ， 现 实 世界 中 的 对 象 ， 比 如 一 本 书 、 一 张 相 片 、 一 只 动物 、 一 个 人 。 在 其 他 命名 
规范 中 ， 样 本 也 可 能 被 称 为 观测 ( observation )、 记 录 或 行 。 
口 特征 ， 数 据 集中 样本 的 描述 或 测量 值 。 特 征 可 以 是 长 度 、 词 频 、 动 物 身 上 腿 的 数量 、 
样本 的 创建 日 期 等 。 在 其 他 命名 规范 中 ， 特 征 也 可 能 被 称 为 变量 、 列 、 属 性 或 共 变 
( covariant )。 
(2) 接 下 来 是 算法 调 参 。 每 个 数据 挖掘 算法 都 有 人 参数， 要么 是 算法 自 带 的 ， 要 么 是 用 户 提供 
的 。 调 整 参数 即 影响 算法 基于 数据 做 出 决策 的 过 程 。 
举 个 简单 的 例子 , 假设 我 们 希望 计算 机 可 以 把 人 按 身高 分 成 两 类 : 高 与 矮 。 一 开始 要 采集 数 
据 集 ， 这 个 数据 集 应 包含 不 同人 的 身高 以 及 判定 高 无 的 条 件 ， 如 表 1-1 所 示 。 































































































表 1-1 
人 员 身 ”高 高 还 是 矮 
1 155 cm 矮 
2 165 cm 矮 
3 175 cm 高 
4 185 cm 高 




















接 下 来 则 是 算法 调 参 。 此 处 使 用 一 种 简单 的 算法 : 如 果 身 高 大 于 x， 则 判定 此 人 高 ; 否则 
判定 此 人 和 无。 该 训练 算法 会 依 数 据 为 x 取 一 个 合适 的 值 。 对 于 表 中 的 数据 而 言 ， 合 理 阅 值 应 是 
170 cm。 算 法 会 把 身高 170 cm 以 上 的 人 判定 为 高 ， 而 把 身高 低 于 此 值 的 人 判定 为 矮 。 这 样 ， 我 
们 的 算法 就 可 以 为 新 数据 分 类 。 假 如 有 一 个 身高 为 167 cm 的 人 ， 尽 管 之 前 在 数据 集中 并 没有 见 
到 这 样 的 人 ， 但 算法 依然 可 以 对 其 分 类 。 


表 1-1 中 数据 的 特征 显然 是 身高 。 要 确定 人 的 高 矮 ， 就 要 采集 身高 数据 。 特 征 工程 〈feature 
engineering ) 是 数据 挖掘 中 的 一 个 关键 问题 。 在 后 面 的 章节 里 ， 我 们 会 讨论 如 何 选 择 适 宜 采集 
到 数据 集中 的 特征 。 这 个 步骤 往往 最 终 需要 引入 领域 知识 ， 或 者 至 少 要 经 过 反复 尝试 才能 取得 

本 书 用 Python 来 介绍 数据 挖掘。 为 便于 理解 ， 本 书 有 时 更 加 关注 代码 和 工作 流程 是 否 清晰 
易 懂 ， 而 不 是 所 采用 的 方法 效率 是 否 最 优 。 因 此 ， 我们 有 时 会 跳 过 提高 算法 速度 或 效率 的 细节 。 
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1.2 使 用 Python 和 Jupyter Notebook 


本 
我 们 还 


节 会 介绍 如 何 安装 Python 和 本 书 大 部 分 内 容 所 需 的 Jupyter Notebook 环境 。 除 此 之 外 ， 
会 安装 NumPy 模块 。 它 将 被 用 于 第 一 组 数据 。 


就 在 不 久 前 ，Jupyter Notebook 的 名 字 还 是 IPython Notebook。 你 会 在 搜索 引擎 页 
人 面 中 见 到 该 项 目 搜索 词 的 变化 。Jupyter 是 新 的 名 字 ， 表 示 该 项 目 外 延 扩 大 ， 不 
再 局 限于 Python。 
1.2.1 安装 Python 
Python 是 一 门 出 色 的 编程 语言 ， 功 能 全 面 ， 易 于 上 手 。 


本 书 使 用 Python3.5, 在 Python 的 官方 网 站 上 可 以 找到 对 应 你 的 操作 系统 的 版 本 。 不 过 我 还 
是 推荐 用 Anaconda 安装 Python 。 





























这 时 你 会 面临 两 个 主 版 本 Python 的 选择 : Python 3.5 和 Python 2.7。 请 下 载 并 安 
装 Python3.5， 因 为 这 是 本 书 测试 过 的 版 本 。 请 按照 网 站 上 相应 操作 系统 的 指南 

人 完成 安装 。 如 果 你 足够 充分 的 理由 选择 Python 2， 那 么 请 下 载 Python 2.7。 不 过 
要 小 心 ， 本 书 中 的 某 些 代码 可 能 需要 一 些 人 额外 的 处 理 才 能 正常 运行 。 


本 书 假定 你 已 具备 编程 和 Python 的 相关 知识 。 虽 然 掌 握 一 定 程度 的 相关 知识 会 加 快 你 的 学 
习 进 度 ， 但 你 无 须 成 为 Python 专家 。 除 非 出 现 不同 于 一 般 Python 的 编码 实践 ， 和 否则 本 书 不 会 解 
释 代 码 的 总 体 架构 和 语法 。 

如 果 你 没有 任何 编程 经 验 ， 那么 我 建议 你 先 看 一 下 Packt 出 版 的 Learning Python， 或 是 
www.diveintopython3.net 上 的 Dive into Python。 


此 外 ， 你 还 可 以 在 线 阅 览 由 Python 社区 维护 的 两 份 Python 入 门 教程 。 










































































口 给 没有 编程 经 验 的 人 准备 的 入 门 教程 : https://wiki.python.org/moin/BeginnersGuide/ 
NonProgrammers。 

口 给 不 了 解 Python 的 程序 员 准 备 的 入 门 教程 : https://wiki.python.org/moin/BeginnersGuide/ 
Programmers。 





Windows 用 户 需 要 设置 环境 变量 才能 在 命令 行 中 使 用 Python , 而 其 他 系统 的 用 户 通常 可 以 直 
接 使 用 Python。 按照 下 面 的 步 又 设置 环境 变量 。 


(1) 找 出 Python 3 的 安装 位 置 ， 默 认 位 置 是 Cc:\Python35。 
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(2) 接 下 来 在 命令 行 ( cmd 程序 ) 中 输入 : set PATH=%PATH%;C:\Python35"。 





《人 如 果 你 把 Python 安装 到 了 别 的 目录 ， 那 么 请 记得 把 上 文中 的 C:\Python35 替 


换 成 这 个 目录 的 路 径 。 

















安装 好 Python 之 后 ， 你 就 可 以 在 命令 行 中 运行 下 面 的 代码 来 检验 是 否 正 确 安装 。 


$ Python 

python3 Sl (default, ADr .11 20147 T1305:11} 

[GCC 4.8.2] on Linux 

Type "help", "copyright", "credits", or "license" for more information. 
>>> print ("Hello, world!") 

Hello, world! 

>>> exit() 


注意 美元 符号 ($ ) 后 的 命令 才 是 你 要 输入 到 终端 ( 即 Mac 或 Linux 中 的 shell, 或 Windows 
中 的 cma ) 中 的 内 容 。 美 元 符号 ( 和 其 他 已 经 显示 在 你 屏幕 上 的 内 容 ) 是 不 需要 输入 的 ， 你 只 需 


要 输入 后 面 的 部 分 然后 按 回 车 键 。 


























成 功 运行 上 面 的 “Hello，world!” 示 例 后 退出 程序 ， 接 下 来 安装 一 个 用 于 运行 Python 的 
更 为 先进 的 环境 : Jupyter Notebook。 


Python 3.5 包含 了 pip 程序 ,这 是 一 个 包 管 理 器 ,有 助 于 在 系统 上 安装 新 的 Python 


人 库 。 运 行 pip freeze 命令 即 可 验证 bip 是 否 可 用 ， 这 个 命令 也 会 列 出 系统 上 


1.2.2 


已 经 安装 的 包 。Anaconda 也 自 带 了 包 管 理 器 conda。 要 是 不 确定 用 哪个 包 管 理 


器 ， 请 先 用 congda， 运 行 失 败 的 话 再 用 pip。 


安装 Jupyter Notebook 





Jupyter 是 一 个 Python 开发 平台 , 包含 了 一 些 运行 Python 的 工具 和 环境 , 功能 较 标 准 Python 
解释 器 更 为 丰富 。 它 包含 了 功能 强大 的 Jupyter Notebook， 让 你 可 以 在 Web 浏览 器 中 编写 程序 。 
它 还 会 格式 化 代码 、 展 示 输 出 、 给 代码 添加 注释 。 这 是 一 种 探索 数据 集 的 绝 佳 工具 ,本 书 中 会 将 


























它 作 为 编 





号、 运行 代码 的 主要 环境 。 











要 安装 Jupyter Notebook， 请 在 命令 行 窗口 ( 而 不 是 Python ) 中 输入 下 面 的 命令 。 


$ conda install jupyter notebook 








这 样 安装 Jupyter Notebook 时 ，Anaconda 会 把 包 存 放 在 用 户 目 录 下 ， 因 此 不 需要 管理 员 权 限 。 





安装 好 Jupyter Notebook 之 后 ， 像 下 面 这 样 运行 它 。 
































GD 因为 这 个 方法 设置 的 环境 变量 会 在 cma 程序 关闭 后 失效 ， 所 以 推荐 使 用 官方 文档 中 的 方法 : https://docs.python.org/ 


3.5/using/windows.html#finding-the-python-executable。 一 一 译 者 注 
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$ jupyter notebook 


这 条 命令 会 做 两 件 事 : 一 是 在 后 台 创 建 一 个 Jupyter Notebook 实例 ， 它 会 在 你 刚才 开启 的 命 
令 行 中 运行 ; 二 是 如 图 1-1 所 示 , 打开 Web 浏览 器 访问 这 个 实例 。 这 之 后 你 就 可 以 创建 新 笔记 本 
(notebook )， 不 过 你 需要 用 当前 的 工作 目录 取代 /home/bob。 


IPython Dashboard - Mozilla Firefox 
IPy IPython Dashboard X 


Ss 127.0.0.1 vcC|| 图 coogle Q 人 人 女 | 自 时 会 2 三 


IPI[y]: Notebook 




















Notebooks Clusters 


To import a notebook, drag the file onto the listing below or click here. Refresh New Notebook 


/home /bob/ 











1-1 








要 终止 Jupyter Notebook 的 运行 ， 需要 打开 运行 Jupyter Notebook 实例 (之 前 运行 过 jupyter 
notebook 命令 ) 的 命令 行 窗 口 ， 然 后 按 Ctrl+C。 这 样 就 能 看 到 shutdown this notebook 
server (y/ [n]?) 的 提示 。 此 时 输入 y 并 按 回 车 ， 就 可 以 关闭 Jupyter Notebook 了 。 


1.2.3 安装 scikit-1learn 


scikit-learn 包 虽 然 是 一 个 用 Python 编写 的 机 器 学 习 库 ， 但 也 包含 其 他 语言 的 代码 。 
它 包含 数目 众多 的 用 于 机 器 学 习 的 算法 、 数 据 集 、 工 具 和 框架 。scikit-learn 基于 Python 
科学 计算 领域 的 技术 栈 构 建 ， 其 中 包括 NumPy 和 SciPy 这 样 的 高 性 能 库 。scikit-learn 性 能 
极 佳 ， 可 扩展 到 多 个 节点 , 适合 从 新 手 到 高 级 研究 员 等 各 种 水 平 的 用 户 使 用 。 第 2 章 会 详细 介绍 
scikit-learn 的 用 法 。 

















要 安装 scikit-learn， 请 使 用 Anaconda 自 带 的 conda 工具 。 如 果 缺 少 NumPy 和 SciPy 
库 ， 它 会 替 你 一 并 安装 。 打 开 终 端 ， 输 入 下 面 的 命令 。 


$ conda install scikit-learn 


主要 Linux 发 行 版 ( 比如 Ubuntu 或 Red Hat ) 的 用 户 可 能 会 希望 通过 系统 的 包 管理 器 安装 官 
方 包 。 
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本 书 所 需 的 最 低 版 本 是 0.14， 但 不 是 每 个 发 行 版 都 提供 最 新 版 本 的 scikit-learn， 
人 因此 在 安装 前 请 留意 其 版 本 。 我 建议 用 Anaconda 安装 、 管 理 scikit-learn， 
而 不 是 用 系统 的 包 管 理 器 。 


若 想 从 源码 编译 安装 最 新 版 本 的 scikit-learn, 或 是 需要 一 份 详细 的 安装 说 明 , 请 参考 官 
方 文档 。 


1.3 和亲 和 性 分 析 的 简单 示例 


本 节 我 们 将 学 习 第 一 个 示例 ， 它 也 是 数据 挖掘 的 一 个 常见 应 用 场景 。 在 消费 者 购买 商品 时 ， 
商家 会 收集 关于 消费 者 对 同类 商品 的 喜好 倾向 的 信息 , 用 以 改进 销售 策略 。 在 这 个 过 程 中 , 亲 和 
性 分 析 就 会 被 用 来 判定 哪些 商品 应 该 同时 展现 给 消费 者 ， 即 分 析 商 品 之 间 的 相关 程度 。 


在 统计 学 课堂 上 有 一 句 名 言 : 相关 不 蕴含 因果 。 因 此 亲 和 性 分 析 的 结果 不 能 解释 该 现象 的 成 
因 。 在 接 下 来 的 例子 中 , 我 们 会 对 一 些 产品 进行 亲 和 性 分 析 。 在 这 个 例子 里 ， 即 使 结果 表明 消费 
者 会 同时 购买 某 些 商品 ,也 不 能 据 此 推断 只 要 卖 出 某 一 商品 ， 就 能 卖 出 另 一 商品 。 在 用 亲 和 性 分 
析 的 结果 指导 业务 流程 的 时 候 ， 这 一 差异 尤为 重要 。 















































什么 是 亲 和 性 分 析 


杀 和 人 性 分 析 (affinity analysis ) 是 一 种 用 于 计算 样本 〈 对 象 ) 相似 度 的 数据 挖掘 方法 。 这 个 
相似 度 可 以 出 自 下 面 几 种 场景 : 


口 网 站 的 用 户 ， 扩 展 服务 项 目 或 定向 投放 广告 ; 
口 销售 的 商品 ， 推 荐 电影 或 其 他 商品 ; 
口 人 类 基因 ， 寻 找 拥有 共同 祖先 的 人 们 。 

计算 亲 和 性 的 方法 有 好 几 种 。 比 如 在 记录 两 件 商品 同时 售 出 的 频率 的 同时 , 记录 预测 消费 者 
购买 商品 1 和 购买 商品 2 的 准确 率 。 我 们 也 可 以 计算 样本 间 的 相似 度 ,， 后 面 的 章节 中 将 会 阐述 这 
个 方法 。 






































1.4 商品 推荐 


传统 业务 向 线 上 转移 时 ， 免 不 了 要 把 像 追加 销售 (up-selling， 向 消费 者 销售 商品 的 升级 品 和 
附加 品 ) 这 样 的 人 工 任务 交 由 计算 机 自动 完成 , 因为 只 有 这 样 才 能 顺利 扩张 业务 ， 与 竞争 对 手 分 
庭 抗 礼 。 用 数据 挖掘 实现 的 商品 推荐 已 经 成 为 电子 商务 革命 的 强大 推力 , 为 企业 增添 了 数 以 亿 计 
的 年 利润 。 








1.4 商品 推荐 7 




















本 例 的 基础 商品 推荐 服务 遵循 这 样 的 思路 : 以 前 就 能 一 并 售 出 的 商品 , 以 后 更 可 能 一 并 售 出 。 
其 实 无 论 是 在 线 上 还 是 线 下 ， 很 多 商品 推荐 服务 是 基于 这 样 的 思路 。 

这 样 的 商品 推荐 算法 可 以 只 简单 检索 用 户 购 买 商品 的 历史 案例 , 并 向 用 户 推荐 其 历史 上 一 并 
购买 的 其 他 商品 。 即 使 使 用 这 样 的 简单 算法 ， 其 效果 也 比 随 机 推荐 商品 要 好 得 多 。 不 过 这 样 的 算 
法 还 有 很 大 的 改进 余地 ， 而 这 就 是 数据 挖掘 的 用 武之 地 。 

为 简化 代码 , 这 里 只 考虑 同时 购买 两 件 商品 的 情况 , 比如 用 户 在 超市 同时 购买 了 面包 和 和 牛奶。 
从 本 例 入 手 , 我 们 希望 能 够 得 出 以 下 这 种 形式 的 简易 规则 : 

用 户 如果 购 买 了 商品 X， 那 么 也 倾向 于 购买 商品 Y。 


像 “ 买 香肠 和 汉堡 的 人 更 愿意 再 买 一 份 番茄 酱 ”这 样 的 复杂 规则 涉及 两 件 以 上 的 商品 , 本 例 
中 不 会 介绍 这 种 复杂 情况 。 

































































1.4.1 用 NumPy 加 载 数据 集 


你 可 以 在 本 书 提供 的 代码 包 中 找到 本 例 用 到 的 数据 集 ， 也 可 以 从 官方 GitHub 仓库 中 下 载 该 
数据 集 : https:/Wgithub.com/PacktPublishing/Learning-Data-Mining-with-Python-Second-Edition 。 


请 下 载 文件 并 将 其 保存 在 你 的 计算 机 中 。 注意 数据 集 保存 的 路 径 。 虽然 我 们 可 以 从 任何 位 置 
加 载 数 据 集 ， 但 把 数据 集 与 代码 放 在 同一 目录 下 会 更 方便 。 


本 例 中 ， 我 建议 你 为 数据 集 和 代码 创建 一 个 新 文件 来， 然后 打开 Jupyter Notebook， 导 航 到 
该 文件 夹 ， 并 创建 新 的 笔记 本 。 


本 例 的 数据 集 是 一 个 NumPy 二 维 数组 ， 本 书 的 示例 大 多 使 用 这 种 格式 。 这 个 二 维 数组 与 表 
类 似 , 里 面 的 行 表示 样本 ,列表 示 特 征 ， 单 元 格 表示 样本 的 特征 值 。 为 了 展示 这 种 结构 ， 请 用 下 
面 的 代码 加 载 这 个 数据 集 。 

import numpy as np 

dataset_filename = "affinity_dataset .txt" 

xX = np.loadtxt (dataset_filename) 

在 笔记 本 中 的 第 一 个 框 中 输入 上 面 的 代码 ， 然 后 按 Shift 加 回 车 键 运行 代码 ( 这 样 也 会 在 下 
面 新 增 一 个 框 ， 用 来 输入 下 一 节 代 码 )。 代 码 运 行 完 成 后 ， 会 被 分 配 一 个 序号 ， 该 序号 会 被 填 和 人 
到 第 一 个 框 左边 的 方 括号 中 。 出 现 这 个 序号 意味 着 代码 运行 完成 了 。 第 一 个 框 如 图 1-2 所 示 。 
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一 口 Xx 
G wordapply' X 口 dataPipelin= X O datapipelin= Xx DO :Anaconds x SS Documents/ X ) TT LDM Chapte X 
@ | © localhost8888/notebooks/Documents/LDM9%20Chapter3%6201.ipynb 六 | 名 
om 
二 JUpyter LDM Chapter 1 wnawes enenoes [a 
F Edit View Insert Cell Kemel Widgets Help | Python [default] © 
加 || + | 天 | 细 的 | 个 | | 刘 国 |C |lcode ， 于 CellToolbar 名 芋 四 


In [1]: import numpy as np 
dataset_filename = "data/affinity dataset.txt" 
X = np.loadtxtidataset filename) 
| I 








图 1-2 
在 代码 运行 时 间 较 长 的 情况 下 ,当代 码 处 于 运行 中 或 计划 运行 的 状态 时 , 方 括号 
6 中 会 是 一 个 星 号 (* )。 当 代码 运行 完成 后 , 方 括号 中 就 会 出 现 序号 ， 即 便 代码 运 
行 失败 也 是 如 此 。 
这 个 数据 集 包 含 100 个 样本 和 5 个 特征 ， 而 后 面 的 代码 会 用 到 这 两 个 值 。 为 了 提取 这 两 个 值 ， 
运行 以 下 代码 。 
n_samples, n_features = X.shape 


如 果 你 的 数据 集 与 这 个 笔记 本 不 在 同一 目录 ， 那 么 你 需要 把 sataset_filename 换 成 相应 
的 路 径 。 


下 面 展 示 数 据 集中 的 几 行 以 便于 加 深 理解 。 在 下 一 个 框 中 输入 下 面 的 这 行 代码 , 即 可 输出 数 
据 集 的 前 5 行 。 


print (XxX[:S]) 


输出 结果 列 出 了 前 5 次 交易 中 购买 的 商品 。 

















[[ 0. 1. 0. 0. 0.] 
[ 1. 1. 0. 0. 0.] 
[ 0. 0. 1. 0. 1.] 
[ 1. 1. 0. 0. 0.] 
[ 0: 0: 1 1: lal] 
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下 载 示例 代码 


只 要 是 Packt 出 版 的 书 , 都 可 以 通过 在 https://www.packtpub.com/ 登 录 账号 来 下 载 相应 的 示例 
代码 。 如 果 你 是 在 别处 购买 的 本 书 , 那么 你 也 可 以 访问 http:/www.packtpub.com/support 并 注册 账 
号 , 我 们 将 用 邮件 把 示例 代码 发 给 你 。 我 也 创建 了 一 个 GitHub 仓库 ,用 于 托管 在 线 版 本 的 代码 ， 
其 中 包含 补丁 、 更 新 等 。 在 这 个 仓库 中 可 以 找到 示例 代码 和 数据 集 。 仓 库 地 址 为 : https://github. 
com/PacktPublishing/Learning-Data-Mining-with-Python-Second-Edition。 


横向 看 ， 第 一 行 (0，1，0，0，0) 显 示 首 次 交易 中 的 商品 。 纵 向 看 ， 各 列 代表 不 同 的 商品 : 
面包 、 牛 奶 、 奶 酷 、 华 果 、 香 帮 。 可 以 看 出 在 这 次 交易 中 ， 消 费 者 只 购买 了 牛奶 ， 而 没有 买 别 的 
东西 。 在 下 一 个 输入 框 中 输入 下 面 这 行 代码 ， 把 特征 值 转换 成 对 应 的 单词 。 

features = ["bread", "milk", "cheese", "apples", "bananas"] 

该 数据 集中 的 特征 用 二 进 制 值 表 示 ， 只 能 表明 交易 中 是 否 购买 了 该 特征 对 应 的 商品 , 而 不 能 
表明 购买 的 数量 。 如 果 值 是 1， 那么 交易 中 购买 了 至 少 1 份 该 商品 ， 而 值 为 0 则 表示 没有 购买 该 
商品 。 而 现实 中 的 数据 集会 需要 采用 精准 数值 或 更 高 的 阔 值 。 




























































































1.4.2 ”实现 规则 的 简单 排序 

我 们 希望 找 出 消费 者 如 果 购 买 了 商品 X, 那么 也 倾向 于 购买 商品 Y 这 样 的 规则 。 虽 然 在 数据 
集中 找 出 所 有 同时 购买 两 件 商品 的 情况 并 列 出 所 有 规则 很 容易 , 但 我 们 需要 区 分 规则 的 优 劣 , 才 
能 最 终 确 定 要 推荐 的 商品 。 


规则 的 评价 方法 有 多 种 ， 这 里 我 们 选 定 这 两 种 : 支持 度 (support ) 和 置信 和 度 (confidence )。 


支持 度 是 规则 在 数据 集中 出 现 的 次 数 , 即 匹配 规则 的 样本 数 。 有 时 我 们 会 对 其 进行 归 一 化 处 
理 ， 即 将 其 除 以 该 规则 中 的 前 提 ( premise ) 成 立 的 总 次 数 。 方 便 起 见 ， 此 处 我 们 采用 未 归 一 化 的 
数值 。 














前 提 (premise ) 是 规则 匹配 的 必要 条 件 。 结 论 ( conclusion ) 则 是 规则 的 输出 。 
以 前 文 的 规则 “消费 者 如 果 购 买 了 苹果 ， 那 么 也 倾向 于 购买 香 荐 ”为 例 ， 该 规则 
人 只 有 在 满足 消费 者 购买 了 苹果 的 前 提 时 才能 匹配 ,此 时 规则 的 结论 为 这 位 消费 者 


支持 度 衡量 规则 匹配 的 频 度 ， 而 置信 度 则 衡量 规则 匹配 的 准确 度 。 当 满足 前 提 时 ,规则 匹配 
的 情况 的 占 比 即 为 置信 度 。 我 们 首先 统计 规则 匹配 数据 的 次 数 ， 然 后 除 以 满足 前 提 的 样本 数 ( 会 
用 到 if 语句 )。 


下 面 以 “消费 者 如 果 购 买 了 苹果 ， 那 么 也 倾向 于 购买 香 巷 ”为 例 ， 计 算 支 持 度 和 置信 和 度 。 
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如 下 例 所 示 ， 取 由 二 维 数组 表示 的 矩阵 中 的 一 行 作 为 样本 ， 即 sample[3]。 它 的 值 就 表示 
交易 中 是 否 购买 了 苹果 。 


sample = X[3] 


同样 ,我 们 也 可 以 通过 sample[4] 获 知 交易 中 是 否 购 买 了 香蕉 ( 以 此 类 推 )。 现在 可 以 计算 
规则 在 数据 集中 出 现 的 次 数 ， 并 由 此 推出 支持 度 和 置信 度 。 


现在 我 们 要 从 数据 集中 计算 出 所 有 规则 的 统计 量 。 因 此 , 我 们 需要 创建 两 个 字典 , 分 别 用 于 
匹配 的 规则 (valid rules ) 和 失 配 的 规则 (invalid rules )。 字 上 典 的 键 是 由 前 提 和 结论 组 成 的 元 组 
(tuple )。 元 组 的 值 是 特征 的 数组 下 标 ， 而 非 实际 的 特征 名 。 对 于 前 文 的 规则 “消费 者 如 果 购 买 了 
人 苹果， 那么 也 倾向 于 购买 香蕉 ”而 言 ， 这 个 值 是 3 和 4。 如 果 前 提 和 结论 都 符合 ， 那 么 就 认为 规 
则 匹配 ; 如 果 只 有 前 提 符 合 ， 那 么 对 这 个 样本 而 言 ， 规 则 失 配 。 


下 面 逐 步 计算 支持 度 和 置信 度 。 以 下 步骤 适用 于 所 有 可 能 的 规则 。 


(1) 首先 ,创建 多 个 存放 结果 用 的 字典 并 将 其 初始 化 ,以 记录 匹配 的 规则 、 失 配 的 规则 和 前 提 
的 出 现 次 数 。 此 处 用 到 了 aefaultdict ， 它 可 以 设 定 访问 不 存在 的 键 时 返回 的 默认 值 。 


from collections import defaultdict 
Validq_rules = defaultdict (int) 
invalid _ rules = defaultdict (int) 
num_ occurences = defaultdict (int) 


(2) 接 下 来 在 一 个 大 循环 中 计算 这 些 值 。 在 迭代 数据 集中 的 每 个 样本 时 , 不 仅 要 迭代 作为 前 提 
的 特征 ,还 要 同时 迭代 作为 结论 的 特征 。 这 样 就 能 映射 出 前 提 和 结论 之 间 的 关系 。 如 果 样 本 的 前 
提 和 结论 都 与 规则 匹配 ， 那么 把 前 提 和 结论 的 元 组 记录 到 valid_rules 中 ; 如 果 规 则 失 配 ， 则 
记录 到 invaliq_rules 中 。 


(3) 以 数据 集 式 中 的 样本 为 例 。 


for sample in XxX: 
for premise in range(n_ features): 
if sample[lpremise] == 0: continue 
# 记录 另 一 交易 中 购买 的 “前 提 ” 
num occurences[premise] += 1 
for conclusion in range(n_ features): 
# 当 “ 前 提 ” 和 “结论 ” 均 为 同一 件 商 品 时 ， 计 算 没有 意义 
if premise == conclusion: 
continue 
if sample[conclusion] == 
# 如 果 消 费 者 也 购买 了 “结论 ” 
valid_rules[ (premise, conclusion)] += 1 
else: 
# 如 果 消 费 者 只 购买 了 “前 提 ”， 而 没有 购买 “结论 ” 


invalid_rules[(premise, conclusion)] += 1 















































































































































1.4 商品 推荐 11 





























代码 会 记录 样本 满足 前 提 ( 特征 值 为 1) 的 情况 ,然后 检查 各 个 结论 是 否 匹 配 规则 ， 并 且 跳 
过 前 提 和 结论 相同 的 情况 ， 因 为 这 将 匹配 :“ 消 费 者 如 果 购 买 了 荚果， 那么 也 倾向 于 购买 苹果 ”。 


至 此 用 于 计算 支持 度 和 置信 和 度 的 统计 量 已 经 备 齐 。 如 前 文 所 述 , 本 例 采 用 未 归 一 化 的 支持 度 ， 
即 直接 取 valid_ rules 的 值 。 


support = valid rules 


置信 和 度 的 计算 方法 也 是 一 样 ， 只 是 要 迭代 规则 。 


confidence = defaultdict (float) 
for premise, conclusion in valiqd rules.keys(): 

rule = (premise, conclusion) 

confidence[rule] = valiqd rules[rule] / num occurences [premisel] 


现在 我 们 就 有 了 分 别 包 含 规则 支持 度 和 置信 度 的 两 个 字典 ,创建 一 个 能 把 规则 输出 成 可 读 格 
式 的 函数 ， 它 可 以 接受 5 个 参数 : 前 提 和 结论 的 数组 下 标 、 刚 才 计算 好 的 文 持 度 和 置信 度 字典 ， 
以 及 特征 名 称 列表 。 这 样 我 们 就 可 以 输出 规则 的 支持 度 和 置信 度 了 。 


def print_rule(premise, conclusion, support, confidence, features): 
for premise, conclusion in confidence: 
premise name = features[premise] 
conclusion name = features[conclusion] 
print ("Rule: If a person buys {0} they will also 
buy{1}".format (premise_name, conclusion name)) 





























print(" - Confidence: {0:.3f}".format 

(confidence[ (premise,conclusion)])) 
print(" - Support: {0}".format (support[ (premise, conclusion)])) 
Su ta a si ol , 


之 后 ， 你 就 可 以 像 这 样 随意 替换 前 提 和 结论 ， 调 用 这 个 函数 测试 代码 功能 。 


premise = 1 
conclusion = 3 
print_rule(premise, conclusion, support, confidence, features) 


1.4.3 ”挑选 最 佳 规则 


我 们 已 经 计算 出 所 有 规则 的 支持 度 和 置信 和 度 。 为 了 挑选 出 最 佳 的 规则 ,我 们 现在 为 规则 排名 ， 
并 输出 排名 最 高 的 规则 ， 排 名 将 按照 支持 度 和 置信 度 进行 。 


为 了 找 出 支持 度 最 高 的 规则 ， 首先 要 对 支持 度 字 典 排序 。 由 于 字典 默认 不 文 持 排序 ， 因 而 可 
以 先 用 字典 的 items () 方 法 生成 字典 内 容 的 列表 , 然后 再 用 itemgetter (1) 取 出 的 字典 的 值 作 
为 排序 键 进行 排序 。 就 像 本 例 中 这 样 ，itemgetter 类 可 以 用 于 骨 套 列表 的 排序 。 参 数 
reverse=True 表示 从 高 到 低 排序 。 
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from operator import itemgetter 
sorted_support = sorted(support.items(), key=itemgetter(1), reverse=True) 


然后 就 可 以 输出 前 5 名 的 规则 。 


for index in range(5): 
print ("Rule #{0}".format (index + 1)) 
(premise, conclusion) = sorted support[index] [0] 
print_rule(premise, conclusion, support, confidence, features) 


输出 的 结果 会 是 下 面 这 样 。 


Rule #1 

Rule: If a person buys bananas they will also buy milk 

- Support: 27 

- Confidence: 0.474 

Rule #2 

Rule: If a person buys milk they will also buy bananas 

- Support: 27 

- Confidence: 0.519 

Rule #3 

Rule: If a person buys bananas they will also buy apples 
- Support: 27 

- Confidence: 0.474 

Rule #4 

Rule: If a person buys apples they will also buy bananas 
- Support: 27 

- Confidence: 0.628 

Rule #5 

Rule: If a person buys apples they will also buy cheese 
- Support: 22 

- Confidence: 0.512 


























同样 ,代码 也 可 以 输出 置信 和 度 前 5 名 的 规则 。 我 们 首先 按 置 信和 度 对 规则 进行 排序 , 然后 用 同 
样 的 方法 输出 结果 。 
sorted_confidence = sorted(confidence.items(), key=itemgetter(1), reverse=True) 


for index in range(5): 
print ("Rule #{0}".format (index + 1)) 
premise, conclusion = sorted confidence[index] [0] 
print_rule(premise, conclusion, support, confidence, features) 














可 以 发 现 “ 消 费 者 如 果 购 买 了 苹果 ， 那 么 也 倾向 于 购买 奶 栈 ” 和 “消费 者 如 果 购 买 了 奶 酷 ， 
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那么 也 倾向 于 购买 香蕉 ”这 两 条 规则 ,在 两 份 排名 中 都 位 居 前 列 。 这 两 条 规则 也 就 可 以 作为 销售 
经 理 调整 商品 氛 放 策略 或 价格 策略 的 参考 。 比 如 ， 如 果 本 周 苹果 特价 出 售 ,就 把 奶 酷 放 在 荚果 附 
近 。 而 香 态 和 奶酪 同时 促销 就 没什么 意义 , 因为 在 购买 了 香 在 的 消费 者 中 ,， 有 66% 的 人 会 同时 购 
买 奶 栈 ， 因 此 这 样 的 促销 对 提升 香 臣 销量 并 没有 多 少 助 益 。 
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Jupyter Notebook 可 以 在 笔记 本 中 展示 内 联 的 图 表 。 不 过 有 的 时 候 默 认 不 启用 这 
个 功能 。 可 以 用 这 行 代码 启用 该 功能 : smatplotlib inlne。 


用 matplotlib 库 可 以 展示 可 视 化 结果 。 


下 面 按 置信 度 的 顺序 , 用 折线 图 展示 各 条 规则 的 置信 度 。matplotlip 可 以 轻松 实现 这 一 需 
求 : 只 需 传人 数值 ， 它 就 能 画 出 一 张 简单 实用 的 折线 图 ( 见 图 1-3 )。 


from matplotlib import pyplot as plt 
plt.plot([confidence[lrule[0]] for rule in sorted confidence]) 
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从 图 1-3 中 可 以 看 出 ,前 5 条 规则 的 置信 和 度 相当 优秀 ， 而 后 面 的 规则 置信 和 度 则 快速 跌落 。 此 
迹象 表明 ,， 仅 前 5 条 规则 可 以 用 于 指导 经 营 决策 。 从 根本 上 讲 ， 像 这 样 的 数据 挖掘 技术 ， 其 实 结 
果 是 取决 于 用 户 的 。 


本 例 展 示 了 数据 挖掘 技术 在 数据 集中 探究 关系 、 洞 察 现象 的 强大 能 力 。 下 一 节 将 介绍 数据 挖 
掘 技术 的 另外 两 个 用 途 : 预测 和 分 类 。 
1.5 分 类 的 简单 示例 


在 前 面 的 亲 和 性 分 析 示 例 中 ,如 果 想 让 消费 者 购买 更 多 苹果 ,那么 就 要 研究 关联 苹果 的 规则 ， 
以 制定 销售 策略 。 这 时 ， 我们 关注 的 是 数据 集中 不 同 变量 的 相关 性 。 而 在 分 类 问题 中 ,我 们 只 关 
注 一 个 变量 ， 也 就 是 类 别 (class )， 有 时 也 称 作 目标 (target )。 
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1.6 ”什么 是 分 类 


无 论 在 研究 中 还 是 在 实际 应 用 中 ， 分 类 都 是 数据 挖掘 相当 常见 的 用 法 。 如 前 面 的 内 容 一 样 ， 
我 们 分 类 的 对 象 是 代表 现实 事物 的 样本 集合 。 不 同 的 是 ,在 分 类 问题 中 我 们 要 维护 一 个 新 的 数 
组 一 一 类 别 值 ， 它 表示 样本 的 归 类 情况 。 什 么 时 候 会 用 到 分 类 呢 ? 可 以 举 几 个 例子 。 


口 根据 植物 的 尺寸 辨别 物种 。 这 里 的 类 别 值 是 物种 。 

口 判断 图 像 中 是 否 有 一 只 狗 。 这 里 的 类 别 值 是 是 否 有 狗 。 

口 根据 特定 的 实验 结果 ， 诊 断 病 人 是 否 埠 患 瘤 证 。 这 里 的 类 别 值 是 是 否 患 癌症 。 

虽然 上 面 的 例子 多 是 二 元 问题 ( 是 与 否 )， 但 其 实 也 有 植物 物种 分 类 这 样 的 分 类 问题 。 本 闻 
就 会 解决 这 一 问题 。 

分 类 的 应 用 目标 是 用 类 别 已 知 的 样本 集合 训练 一 个 模型 , 然后 让 该 模型 来 处 理 类 


i 别 未 知 的 样本 集合 。 例如， 基于 历史 邮件 ( 其 中 垃圾 邮件 已 标 出 ) 训练 一 个 垃圾 
邮件 分 类 器 ， 然 后 用 该 分 类 器 自动 判断 以 后 收 到 的 邮件 是 不 是 垃圾 邮件 。 







































































1.6.1 准备 数据 集 


本 例 中 ， 我 们 用 著名 的 芒 尾 数据 集 ( Iris database ) 来 给 植物 分 类 。 这 个 数据 集 包 含 多 达 150 
个 植物 样本 ， 以 厘米 (cm ) 为 单位 描述 了 植物 的 4 项 尺寸 ， 花 昔 长 度 、 花 昔 宽 度 、 花 斩 长 度 和 
花 办 宽度 。 这 个 数据 集 在 数据 挖掘 领域 很 经 典 ， 其 首次 使 用 可 以 追溯 到 1936 年 。 这 个 数据 集 包 
含 3 个 类 别 : 山 芒 尾 ( Iris Setosa )、 变 色 芒 尾 ( Iris Versicolour ) 和 维 吉 尼 亚 音 尾 (Iris Virginica )。 
下 面 我 们 将 通过 检视 植物 的 4 项 尺 二 来 判断 物种 。 


scikit-learn 库 自 带 这 个 数据 集 ， 直 接 加 载 即 可 。 


from sklearn.datasets import 1oadq_iris 
dataset = Loadq_iris() 

xX = dataset.data 

y = dataset.target 


你 可 以 用 print (dataset .DESCR) 查看 数据 集 的 大 体 情 况 ， 里 面 会 有 特征 的 详细 说 明 。 


该 数据 集 的 特征 是 连续 值 ， 也 就 是 说 可 以 取 任 意 范 围 的 值 。 尺 寸 就 是 一 个 不 错 的 连续 特征 ， 
尺寸 可 以 取 1、1.2、1.25 等 这 样 的 值 。 连 续 特征 的 男 一 个 性 质 是 ， 两 个 特征 值 的 差 值 可 以 体现 样 
本 的 相似 程度 ， 差 值 越 小 则 越 相似 。 花 苯 宽 度 1.2 cm 的 植物 与 花 苯 宽度 1.25 cm 的 植物 很 可 能 是 
同一 物种 。 

与 之 相反 的 是 分 类 特征 ( categorical feature )， 它 通常 以 数字 形式 表示 ， 不 能 比较 差 值 。 营 尾 
数据 集中 的 类 别 值 就 是 分 类 特征 。 类 别 0 代表 山高 尾 ， 类 别 1 代表 变色 音 尾 ,类别 2 代表 维 吉 尼 
亚 音 尾 。 分 类 特征 的 差 值 不 能 体现 相似 程度 ， 即 此 处 不 能 由 数值 推出 “ 比 起 维 吉 尼 亚 过 尾 ,， 山 并 
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尾 与 变色 营 尾 较为 相似 ”这 样 的 结论 。 数 值 只 代表 分 类 ， 我 们 只 能 说 类 别 是 否 相 同 。 [ 
特征 的 类 型 不 止 这 两 种 , 还 包括 像素 灰 度 、 词 频 和 元 语法 分 析 , 我 们 会 在 后 面 的 章节 中 介绍 。 
下 面 用 到 的 算法 需要 分 类 特征 ,而 总 尾数 据 集 的 特征 却 是 连续 的 , 这 就 需要 我 们 把 连续 特征 
转换 成 分 类 特征 ， 这 个 过 程 被 称 为 离散 化 。 
最 简单 的 离散 化 方法 就 是 取 一 个 贱 值 ， 低 于 阔 值 返回 0， 反 之 则 返回 1。 这 里 我 们 取 特 征 的 
均值 作为 冰 值 。 下 面 先 计算 各 个 特征 的 均值 。 
attribute means = X.mean(axis=0) 
这 行 代码 的 结果 是 个 数组 ， 数 组 的 长 度 就 是 特征 的 数量 ， 在 本 例 中 是 4。 数 组 的 第 一 个 值 就 
是 第 一 个 特征 的 均值 ， 以 此 类 推 。 然 后 把 这 些 值 一 一 转换 为 离散 的 分 类 特征 。 


assert attribute means.shape == (n_features,) 
Xd = np.array (X >= attribute means, dtype='int') 


之 后 就 可 以 用 新 数据 集 x_a ( X discretized 的 缩写 ， 表示“ 离散 化 的 对”) 进行 训练 和 测试 ， 
而 不 用 原始 数据 集 忒 。 













































































1.6.2 ”实现 OneR 算 法 


OneR 是 一 种 简单 预测 样本 类 别 的 算法 , 它 能 为 每 一 特征 值 找 出 最 常见 的 类 别 。OneR 是 One 
Rule 的 缩写 , 意 为 选择 最 显著 的 特征 作为 分 类 的 唯一 规则 。 虽 然后 文 将 介绍 的 算法 会 比 它 复杂 得 
多 ， 但 对 于 某 些 现实 中 的 数据 集 ， 这 个 算法 的 效果 已 经 足够 好 了 。 


这 个 算法 从 迭代 每 个 特征 的 每 个 取 值 开始 , 求 出 在 各 个 类 别 中 具有 该 特征 值 样本 的 数量 , 并 
记录 特征 值 最 常见 的 类 别 和 预测 错误 的 情况 。 


例如 ， 如 果 某 特征 可 以 取 0 和 1 两 个 值 ， 则 首先 找 出 所 有 该 特征 为 0 的 样本 。 该 特征 为 0 的 
所 有 样本 中 ， 归 类 为 A 的 样本 有 20 个 ， 归 类 为 B 的 有 60 个， 归 类 为 C 的 有 20 个 。 那 么 类 别 B 
是 该 特征 为 0 时 最 常见 的 类 别 ， 此 时 还 有 40 个 样本 被 归 为 其 他 的 类 。 在 该 特征 为 0 时， 预测 其 
类 别 为 B， 就 会 有 40 个 样本 与 预测 相悖 ， 即 错误 率 是 40%。 然 后 为 该 特征 值 为 1 的 情况 重复 这 
一 过 程 ， 再 将 之 推广 到 其 他 特征 中 。 

完成 这 一 步 后 , 求 出 错误 累计 数 : 对 分 布 在 错误 类 别 中 的 各 个 特征 值 的 样本 数量 求 和 。 由 此 
找 出 累计 错误 最 少 的 特征 ， 而 它 就 是 前 面 提 到 的 One Rule， 之 后 就 可 以 用 它 为 新 样本 分 类 。 

在 本 例 代 码 中 , 我 们 用 一 个 函数 来 预测 类 别 、 计 算 特 征 值 的 错误 累计 值 。 实 现 这 个 函数 需要 
导入 两 个 依赖 : defaultdict 和 itemgetter， 在 之 前 的 代码 中 介绍 过 它们 的 用 法 。 


from collections import defaultdict 
from operator import itemgetter 
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然后 我 们 创建 函数 定义 ， 把 数据 集 、 所 有 样本 的 类 别 数组 、 指 定 特征 的 索引 值 和 特征 值 作为 




















参数 。 这 个 函数 会 迭代 样本 ， 然 后 统计 每 一 特征 值 对 应 到 指定 类 别 的 次 数 。 再 选 出 对 于 当前 这 对 











特征 和 值 而 言 最 常见 的 类 别 。 


def train feature value(x, y_true, feature, value): 
# 创建 一 个 字典 ， 统 计 预 测 为 各 个 类 别 的 频次 
class_counts = defaultdict (int) 
# 迭代 样本 ,统计 类 别 / 值 对 的 频次 
for sample, y in zip(X, y_true): 
if sample[feature] == value: 
class_counts[y] += 1 


# 从 高 到 低 排 序 ， 选 择 排名 第 一 的 类 别 


sorted_class_counts = sorted(class_counts.items(), key=itemgetter(1), 


reverse=True) 
most_frequent_class = sorted class_counts[0][0] 
# error 是 特征 值 与 feature 一 致 但 没有 归 入 最 常见 类 的 样本 的 数目 
n_samples = X.shapel[l1] 


error = Sum([class_count for class_value，class_count in class_counts.items() 


if class_value != most_frequent class]) 
return most_frequent_class, error 





最 后 一 步 是 计算 错误 累计 值 。 因 为 样本 如 果 有 上 面 指定 的 特征 值 ， 则 会 被 OneR 算法 预测 为 
最 常见 的 类 别 ， 所 以 我 们 汇总 所 有 归 到 其 他 类 别 ( 即 非 最 常见 类 别 ) 的 情况 作为 错误 累计 值 ， 用 





以 指示 训练 样本 分 类 错误 的 情况 。 


用 这 个 函数 迭代 所 有 指定 特征 的 值 , 汇总 错误 ,记录 每 一 个 值 的 预测 类 别 
某 特 征 的 错误 累计 值 。 











， 然 后 就 能 计算 出 


这 个 函数 以 数据 集 、 所 有 样本 的 类 别 数 组 和 指定 特征 的 索引 值 为 参数 ,迭代 所 有 特征 值 ， 然 


后 找 出 最 准确 的 特征 值 作 为 OneR。 


def train(x, y_true, feature): 

# 检查 feature 变量 是 否 为 有 效 值 

n_samples, n_features = X.shape 

assert 0 <= feature < n_features 

# 列 出 这 个 特征 的 所 有 可 能 取 值 

values = set (Xx[:,featurel]) 

# 存储 函数 返回 的 预测 器 数组 

predictors = Qict() 

errors = [] 

for current_ value in values: 
most_frequent_class, error = train feature value 
(X, y_true, feature, current_value) 
predictors[current_value] = most_frequent_class 
errors.append (error) 

# 汇总 用 feature 分 类 产生 的 错误 

total_error = sum(errors) 

return predictors, total_error 


接 下 来 详细 看 一 下 这 个 函数 。 
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首先 校 验 变量 是 否 有 效 , 然后 列 出 指定 特征 的 所 有 可 能 取 值 。 下 一 行 中 的 索引 值 从 数据 集中 
取出 指定 的 特征 列 ， 并 以 数组 形式 将 其 返回 。 然 后 用 集合 函数 去 重 。 

Values = set(X[:,feature_indqex] ) 

然后 创建 一 个 存放 预测 器 的 字典 ， 该 字典 以 特征 值 为 键 ， 类 别 为 值 。 比 如 键 为 1.5 上 且 值 为 2， 
表示 当 该 特征 的 值 为 1.5 时 ， 样 本 会 被 分 类 为 类 别 2。 还 要 创建 一 个 存放 各 类 别 累计 错误 值 的 列表 。 


predictors = dict() 
errors = [] 


这 个 函数 的 主要 功能 是 迭代 特征 的 所 有 可 能 取 值 ， 传 给 之 前 所 定义 的 train_feature_ 
value () 函数 ， 计 算出 特征 最 常见 的 类 别 和 错误 值 并 保存 在 上 面 的 字典 或 列表 中 。 
最 后 ， 汇 总 这 条 规则 的 累计 错误 值 ， 并 与 预测 类 别 一 起 作为 返回 值 。 


total_error = suml(errors) 
return predictors, toral_error 

















1.6.3 测试 算法 功能 


亲 和 性 分 析 算 法 旨 在 探究 数据 集中 内 含 的 关联 。 而 分 类 算法 则 旨 在 构建 一 个 模型 ,使 其 能 通 
过 与 已 知 样本 比较 给 未 知 样本 分 类 。 两 个 算法 用 途 杀 异 ， 评 估 方 法 也 不 一 样 。 


为 此 ,机 器 学 习 的 工作 流程 会 被 划 为 两 个 阶段 : 训练 阶段 和 测试 阶段 。 在 训练 中 ， 我们 用 数 
据 集中 的 一 部 分 样本 训练 模型 。 在 测试 中 , 我 们 要 评估 模型 在 数据 集 上 的 分 类 效果 。 因 为 模型 是 
用 来 给 未 知 样本 分 类 的 ， 若 用 测试 数据 训练 模型 会 导致 过 拟 合 (overfitting )， 所 以 应 该 避免 这 一 
情况 。 

模型 在 训练 数据 集中 表现 优异 ,而 在 新 样本 中 表现 较 差 的 情况 就 属于 过 拟 合 。 只 要 记 住 一 个 
原则 ， 即 可 避免 这 一 问题 : 不 要 用 训练 数据 集 测试 算法 。 在 后 面 的 章节 中 ， 我们 会 介绍 这 个 原则 
的 复杂 变 体 ; 而 目前 ,评估 OneR 算法 ， 只 需要 把 数据 集 分 成 两 小 份 ， 一 份 用 于 训练 ， 另 一 份 用 
于 测试 。 本 节 的 工作 流程 就 是 这 样 。 

scikit-learn 库 自 带 了 一 个 可 以 把 数据 集 按 训练 和 测试 目的 分 割 成 两 份 的 组 件 。 

from sklearn.cross_validation import train test_sp11it 

该 函数 会 按 指定 比例 ( 默认 比例 是 测试 数据 集 占 总 体 的 25% ) 随机 分 割 数 据 集 ,让 分 类 算法 
更 准确 ， 即 使 在 ( 总 会 服从 某 种 随机 分 布 的 ) 现实 数据 中 也 能 表现 良好 。 


Xd_train, Xd _ test, y_train, y_test = train test_split(x qd, y, 
random_ state=14) 


这 样 就 有 了 两 小 份 数据 集 : xgq_train 训练 数据 集 和 xgq_test 测试 数据 集 。y_train 和 
y_test 分 别 对 应 两 份 数据 集中 的 所 有 样本 的 类 别 数组 。 
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然后 指定 random_state。 指 定 random_state 可 以 使 我 们 在 输入 同样 的 值 时 得 出 同样 的 
划分 。 尽管 这 种 划分 看 起 来 是 随机 的 ,然而 其 算法 是 确定 的 , 输出 的 结果 也 是 一 致 的 。 我 建议 你 
使 用 本 书 所 取 的 random_state 值 , 这 样 你 的 结果 才能 与 本 书 中 的 一 致 ， 这 有 助 于 你 核对 结果 。 
如 果 你 想 使 每 次 运行 结果 都 不 一 样 ， 那 么 把 random_state 设 为 None 即 可 。 


接 下 来 ,算出 数据 集中 所 有 特征 的 预测 器 。 注 意 此 步 只 能 使 用 测试 数据 集 。 迭 代数 据 集 中 的 
所 有 特征 ， 然 后 用 之 前 定义 好 的 函数 训练 预测 器 并 汇总 错误 累计 值 。 


all_predictors = {} 
errors = {} 
for feature_ index in range (Xd train.shape[1]): 
predictors, total_ error = train(xXxd train, 
y_train, 
feature_index) 
all_predictors[feature_ index] = predictors 
errors[feature_index] = total_error 


挑选 出 累计 错误 最 低 的 特征 作为 One Rule。 


best_feature, best_error = sorted(errors.items(), key=itemgetter(1))1[0] 


然后 取 这 个 特征 的 预测 絮 作 为 model。 


model = {'feature': best_feature, 
'predictor': all predictors[best_ featurel]} 


这 里 的 模型 是 一 个 字典 ， 表 示 作 为 One Rule 的 特征 和 基于 该 特征 值 的 预测 器 是 哪个 。 我 们 
可 以 用 这 个 模型 选择 未 知 样本 中 指定 特征 的 值 , 然后 再 使 用 预测 需 , 这 样 就 得 到 了 该 样本 的 类 别 。 
下 例 代码 即 为 这 个 过 程 


Variable = modqel['feature'] 
predictor = model['predictor '] 
prediction = predqictor[int(sample[variablel])] 


为 了 一 次 预测 多 个 样本 的 类 别 , 我 们 可 以 把 这 个 功能 写成 函数 。 我 们 还 是 用 上 面 的 这 段 代码 ， 
只 不 过 要 迭代 数据 集中 的 所 有 样本 ， 以 获取 每 个 样本 的 预测 类 别 。 


def predict (xXx_test, model): 
variable = model['feature'] 
predictor = model['predictor'] 
y_predicted = np.array ([predictor 
[int (sample[variable])] for sample 
in X_test]) 
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return y_predicted 
把 测试 数据 集 传 给 这 个 函数 进行 预测 。 
y_predicted = predict (Xd_test, model) 


与 已 知 的 样本 类 别 相 比较 ， 计 算 模型 的 命中 率 。 
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accuracy = np.meanl(y_predicted == y_test) * 100 
print ("The test accuracy is {:.1f}%".format (accuracy)) 


这 个 只 有 一 条 规则 的 算法 命中 率 达 到 了 65.8%， 还 算 不 赖 ! 


1.7 本章 小 结 


本 章 概述 了 用 Python 进行 数据 挖掘 的 一 些 概 念 与 方法 。 如 果 你 运行 了 本 章 示例 中 的 代码 
( 本 书 提供 的 代码 包 中 包含 了 完整 示例 代码 ), 那么 其 实 你 已 经 配置 好 了 本 书 大 多 数 示例 代码 所 需 
的 运行 环境 。 然 而 术 业 有 专攻 ， 后 面 的 章节 也 会 用 到 其 他 的 Python 库 ， 以 执行 特定 领域 的 任务 。 


在 本 章 中 ， 我 们 用 Jupyter Notebook 运行 代码 ， 以 即时 展示 小 段 代码 的 结果 。 它 也 是 全 书 中 
都 会 用 到 的 一 种 实用 工具 。 


本 章 介绍 了 亲 和 性 分 析 , 并 用 它 找 出 经 常 一 起 售 出 的 商品 。 这 种 探究 数据 集 内 在 关联 的 分 析 
方法 让 我 们 可 以 洞察 某 套 业务 流程 、 某 种 环境 或 是 某 个 场景 中 的 现象 。 这 种 分 析 得 出 的 信息 会 成 
为 业务 流程 、 医 药 研发 和 下 一 代 人 工 智 能 的 关键 突破 点 。 

男 外 ， 本 章 还 以 OneR 算法 为 例 介绍 了 分 类 问题 。 这 个 算法 很 简单 ， 它 只 是 从 训练 数据 集中 
挑选 出 最 佳 特征 值 ， 并 以 此 值 的 最 常见 类 别 作为 预测 类 别 。 

想 想 如 何 实现 一 种 OneR 算法 的 变 体 ， 而 该 变 体能 同时 考虑 多 对 特征 与 值 。 请 尝试 实现 并 评 


佑 这 种 变 体 算法 ， 以 加 深 对 本 章 内 容 的 理解 。 注 意 ,要 把 测试 数据 集 和 训练 数据 集 隔 离开 来 ， 否 
则 会 出 现 过 拟 合 问题 。 









































接 下 来 的 儿童 会 展开 介绍 分 类 问题 与 亲 和 性 分 析 中 的 概念 , 我 们 会 用 scikit-learn 包 中 的 
分 类 器 进行 机 器 学 习 ， 而 不 是 亲自 动手 写 算 法 。 

















用 scikit-learn 估计 闫 


解决 分 类 问题 

















scikit-learn 是 一 个 用 Python 编写 的 数据 挖掘 算法 集合 ， 它 提供 了 通用 编程 接口 。 用 它 
不 仅 可 以 轻松 尝试 不 同 的 算法 ， 它 自 带 的 标准 工具 还 能 帮助 你 完成 有 效 性 测试 和 参数 搜索 等 工 
作 。scikit-learn 包含 的 算法 和 工具 数目 众多 ， 其 中 不 乏 现 代 机 器 学 习 领 域 中 常用 的 算法 。 


本 章 重 点 介绍 如 何 措 建 一 套 运 行 数据 挖掘 任务 的 框架 。 后 面 的 章节 也 会 沿用 这 套 框架 , 这 让 
我 们 可 以 专注 于 数据 挖掘 技术 及 其 应 用 。 
本 章 引 入 了 3 个 关键 概念 。 
口 估计 器 : 执行 分 类 、 聚 类 、 回 归 分 析 任 务 。 
口 转换 器 : 完成 数据 的 预 处 理 与 修改 工作 。 
口 流水 线 : 用 于 组 合 工作 流程 ， 便 于 复 用 。 



































2.1 scikit-learn 估计 器 





估计 器 在 设计 时 考虑 了 诸多 算法 的 标准 化 实现 和 测试 方法 , 并 形成 了 一 套 可 以 用 来 构建 分 类 
右 的 通用 轻 量 接口 。 分 类 器 只 要 实现 了 这 个 接口 ， 就 可 以 与 scikit-learn 自 带 的 工具 配套 使 
用 ， 而 无 须 关 心 具体 算法 的 实现 。 


估计 器 一 定 包括 下 述 两 个 关键 函数 。 


口 fit () : 训练 模型 的 内 部 参数 。 它 接受 两 项 输入 : 训练 样本 数据 集 以 及 样本 对 应 的 类 别 。 
口 predict () : 预测 测试 样本 的 类 别 。 仪 以 测试 集 类 别 为 输入 ， 该 函数 会 返回 一 个 内 容 为 
测试 样本 预测 类 别 的 NumPy 数组 。 


尽管 大 多 数 scikit-learn 估计 顺 的 输入 参数 和 输出 结果 是 NumPy 数组 或 与 其 相关 的 格 
式 ， 然 而 这 只 是 惯例 ， 而 非 必 需 。 
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scikit-learn 中 实现 了 许多 估计 器 ， 其 他 开源 项 目 中 还 会 有 更 多 使 用 相同 接口 的 估计 器 ， 
包括 支持 向 量 机 ( SVM )、 随 机 森林 等 。 后 面 的 内 容 会 用 到 这 些 算法 ， 而 本 章 用 的 是 最 近邻 算法 


( nearest neighbor algorithm )。 


本 章 需 要 安装 matplotlib 图 形 工 具 库 。 与 第 1 章 中 安装 scikit-learn 时 一 样 ， 
用 pip3 即 可 安装 matplotlip。 
0 $ pip3 install matplotlib 
如 果 你 在 安装 matplotlib 时 遇 到 问题 ， 请 参看 官方 安装 说 明 。 
人 | ~ 
2.1.1 最 近邻 算法 


本 节 将 介绍 一 种 新 算法 一 一 最 近邻 算法 。 我 们 取 最 相近 的 样本 , 并 预测 大 多 数 邻近 的 样本 所 
归属 的 类 别 。 尽 管 可 以 用 更 复杂 的 方法 来 选 出 这 个 类 别 ， 比 如 加 权 投 票 ， 然 而 此 处 为 方便 起 见 ， 
只 用 简单 计数 的 方法 。 

如 图 2-1 所 示 ， 要 预测 三 角形 的 类 别 ， 就 要 看 它 与 哪个 类 别 更 近 ( 在 图 中 ,距离 越 近 ， 形 状 
越 相似 )。 查 找 距离 最 近 的 3 个 相 邻 样本 ,得 到 图 中 圈 内 的 两 个 覆 形 和 一 个 圆 形 。 因 为 圈 内 的 攻 
形 比 圆 形 多 ， 所 以 这 个 三 角形 的 预测 类 别 就 是 菱形 的 类 别 。 
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图 2-1 


最 近邻 算法 几乎 适用 于 任何 数据 集 ， 只 不 过 若 要 计算 每 对 样本 间 的 距离 ， 计 算 成 本 会 很 高 。 
假设 数据 集中 有 10 个 样本 , 那么 需要 计算 45 个 不 同 的 距离 ; 而 当 数 据 中 有 1000 个 样本 的 时 候 ， 
就 要 计算 近 500 000 个 距离 。 因 此 ， 可 以 用 多 种 方法 提升 最 近邻 算法 的 速度 ， 例 如 用 树 形 结构 来 
完成 距离 的 计算 。 改 进 后 的 算法 可 能 会 相当 复杂 ， 不 过 ,好 在 scikit-learn 已 经 实现 好 了 一 
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种 最 近邻 算法 ， 由 此 我 们 可 以 对 大 规模 数据 集 进行 分 类 。 而 且 在 scikit-learn 中 ， 这 种 树 形 
结构 无 须 配 置 即 可 使 用 。 


另外 ， 最 近邻 算法 不 能 直接 在 基于 分 类 的 数据 集 ( categorical-based dataset ) 中 使 用 。 这 种 数 
据 集 的 特点 是 包含 分 类 特征 , 而 最 近邻 算法 不 能 有 效 比 较 分 类 特征 值 之 间 的 差异 , 因此 这 种 数据 
集 的 分 类 问题 应 换 用 其 他 算法 来 解决 , 而 且 这 种 算法 最 好 能 根据 特征 的 重要 程度 为 其 设置 合适 的 
权重 。 距 离 度 量 ( distance metric ) 或 像 独 热 编码 ( one hot encoding ) 这 样 的 预 处 理 技术 可 以 用 于 
解决 分 类 特征 的 比较 问题 , 这 在 后 面 的 内 容 中 将 会 一 一 介绍 。 根据 实 际 任务 选取 正确 的 算法 是 数 
据 挖 气 中 的 难题 。 最 简单 的 方法 通常 是 测试 一 组 不 同 算法 , 并 从 中 挑选 出 在 实际 任务 中 表现 最 好 
的 算法 。 









































2.1.2 ”距离 度量 


数据 挖掘 中 的 一 个 关键 基础 概念 就 是 距离 (distance )。 如 何 判 断 某 两 个 样本 之 间 是 否 比 其 他 
两 个 样本 之 间 更 具 相 似 性 呢 ?” 这 一 问题 的 答案 会 是 数据 挖掘 效果 好 坏 的 关键 。 

解决 这 一 问题 最 常用 的 是 欧 几 里 得 ( Euclidean ) 距离 ， 它 是 现实 世界 中 的 距离 。 如 果 你 在 图 
表 中 绘制 两 点 ， 并 用 直 尺 测量 两 点 间距 离 ， 那 么 这 个 距离 即 欧 几 里 得 距离 。 





























更 严格 地 讲 , 样本 点 a 到 样本 点 的 欧 几 里 得 距离 是 其 每 个 特征 间距 离 的 平方 和 
的 平方 根 。 


欧 几 里 得 距离 虽然 较为 直观 , 但 在 某 些 特征 的 值 比 其 他 特征 大 很 多 的 情况 下 和 特征 值 中 0 值 
多 的 情况 下 精度 较 差 。0 值 多 的 和 矩阵 叫 作 稀 玻 和 矩阵 ( sparse matrix )。 


除 此 之 外 ， 还 有 其 他 的 距离 度量 方法 。 曼 哈 顿 距离 和 余弦 距离 是 其 中 两 种 常用 方法 。 











i 曼哈顿 ( Manhattan ) 距离 是 各 个 特征 的 差 的 绝对 值 之 和 ( 不 涉及 平方 距离 )。 





假如 国际 象棋 中 的 棋子 “车 ”( 因 其 形状 也 称 作 “城堡 ”) 每 次 只 能 走 一 格 , 那么 它 在 移动 到 
棋盘 某 一 位 置 时 所 需 的 步 数 即 曼哈顿 距离 。 尽 管 如 果菜 些 特征 的 值 明显 大 于 其 他 特征 ,曼哈顿 距 
离 也 会 受到 影响 ， 然 而 这 种 影响 没有 欧 几 里 得 距离 在 相同 情况 下 受到 的 影响 显著 。 











在 某 些 特征 的 值 明 显 大 于 其 他 特征 或 数据 集中 的 0 值 特征 较 多 时 , 余弦 (cosine ) 
距离 更 为 适用 。 
直观 来 说 ， 在 样本 点 和 坐标 原点 间 连 线 ， 这 些 线 之 间 的 夹 角 的 余弦 值 即 各 点 间 的 余弦 距离 。 
图 2-2 直观 展示 了 这 几 种 距离 度量 方式 的 差异 。 
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在 每 幅 图 中 ， 两 个 灰色 圆 形 到 白色 圆 形 的 “距离 ”相同 。 左 图 展示 的 是 欧 几 里 得 距离 ， 因 此 
两 个 灰色 圆 形 落 在 以 白色 圆 形 为 中 心 的 圆 的 圆周 上 。 用 太子 也 可 以 量 出 该 距离 。 中 间 的 图 展示 的 
是 曼哈顿 距离 ， 也 叫 作 城市 街区 〈 City Block ) 距离 。 像 国际 象棋 中 棋子 车 ( 城堡 ) 在 棋盘 上 行 
和 列 中 的 路 径 一 样 ， 从 灰色 圆圈 到 白色 圆圈 经 过 的 横向 距离 与 纵向 距离 之 和 即 曼 哈 顿 距离 。 右 图 
展示 的 是 余弦 距离 ， 它 是 样本 向 量 之 间 的 夹 角 的 余弦 值 ， 与 实际 线条 的 长 度 无 关 。 

















0 距离 度量 方法 的 选择 对 最 终结 果 的 影响 非 同 小 可 ， 可 谓 军 一 发 而 动 全 身 。 


比如 在 特征 数量 很 多 的 情况 下 , 任意 样本 间 的 欧 几 里 得 距离 几乎 相同 , 这 就 会 导致 著名 的 维 
数 灾难 (curse of dimensionality ) 问题 ， 因 为 高 维特 征 空间 中 的 欧 几 里 得 距离 不 能 体现 样本 间 的 
差异 oO 


而 用 曼哈顿 距离 则 很 少 会 出 现 这 一 问题 ， 只 是 在 某 些 特征 的 值 明 显 大 于 其 他 特征 的 情况 下 ， 
这 些 特征 会 否决 (overrule ) 其 他 特征 体现 的 相似 度 。 例如 ,特征 4 的 值 在 1 到 2 之 间 , 而 特征 B 
的 值 在 1000 到 2000 之 间 , 那么 特征 4 对 结果 的 影响 就 微乎其微 。 对 特征 进行 归 一 化 处 理 即 可 解 
决 这 一 问题 。 归 一 化 处 理 后 的 曼哈顿 距离 和 欧 几 里 得 距离 在 面 对 不 同 特征 时 会 变 得 更 为 可 靠 , 本 
草 的 后 续 内 容 会 介绍 这 一 方法 。 


余弦 距离 适合 用 于 比较 特征 数量 较 多 的 样本 。 虽 然 某 些 应 用 场景 会 用 到 样本 向 量 的 长 度 信息 ， 
但 余弦 距离 舍弃 了 这 些 信 息 。 余 弱 距 离 通常 用 在 文本 挖掘 中 ， 因 为 文本 固有 的 特征 数量 很 多 。 

















完 其 根本 ， 选 择 距离 度量 时 ， 要 么 从 理论 角度 出 发 分 析 推 斯 ， 要 勾 从 实证 角度 
0 出 发 测试 效果 。 虽 然 我 个 人 倾向 于 实证 方法 ， 但 其 实 两 种 方法 都 可 以 得 出 正确 的 


结论 。 





本 章 只 介绍 欧 几 里 得 距离 , 其 他 距离 度量 方法 会 在 后 面 的 章节 中 用 到 。 如 果 你 愿意 动手 实验 ， 
可 以 尝试 换 用 曼哈顿 距离 来 测试 分 类 结果 。 
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2.1.3 ”加 载 数据 集 


电离 层 ( ionosphere ) 数据 集 是 由 高 频 天 线 收集 的 电离 层 ( 如 图 2-3 所 示 ) 数据 ， 旨 在 探究 
如 何 用 神经 网 络 从 这 个 数据 集中 分 辨 雷达 接收 信号 的 好 与 坏 。 如 果 样 本 读数 体现 了 某 个 结构 ， 则 
视 为 好 样本 ; 如 果 缺 失 这 个 结构 ， 则 视 为 坏 样 本 。 本 节 将 构建 一 个 数据 挖掘 分 类 器 ,用 于 判断 雷 
达 图 像 是 好 还 是 坏 。 




















图 2-34 





你 可 以 搜索 “UCI Machine Learning Repository: Ionosphere Data Set” 为 不 同 的 数据 挖掘 应 用 下 
载 电离 层 数据 集 。 点 击 Date Folder 链接 ,然后 把 ionosphere .data 文件 和 ionosphere .names 
文件 下 载 到 同一 文件 夹 中 。 本 例假 定 你 把 数据 集 存 放 在 home 文件 夹 中 的 Data 目录 下 。 你 也 可 
以 将 数据 放 在 别 的 地 方 ， 只 是 要 把 代码 中 的 数据 集 文件 夹 路 径 改 为 实际 路 径 (此 处 如 此 ， 后 续 章 
节 中 亦 如 此 )。 





home 文件 夹 的 位 置 与 操作 系统 有 关 。Windows 中 该 位 置 通常 是 C:\Documents 
and Settings\username;Mac 和 Linux 中 通常 是 /home/username。 在 Jupyter 
(人 Notebook 中 运行 下 面 这 行 代码 即 可 获取 home 文件 夹 路 径 。 


import os 
print (os.path.expanduser ("~")) 





数据 集 的 每 行 都 有 35 个 值 。 前 34 个 值 是 由 17 架 天 线 测量 出 的 数据 ( 每 个 天 线 一 对 值 ) >。 








GD 图 像 已 经 作者 授权 。 
@ 该 数据 集 出 自 论文 : Sigillito, V. G, Wing, S. P, Hutton, L. V. et al. Classification of radar returns from the ionosphere 
using neural networks[J]. Johns Hopkins APL Technical Digest, 1989, 10, 262-266。 论 文 作者 从 一 个 16 天 线 相 控 阵 雷 
达 接 收 电 离 层 中 自由 电子 的 反 向 散射 信号 ,并 用 一 个 离散 自 相关 函数 R(L,R) 对 原始 数据 做 了 处 理 。 其 中 是 脉冲 
译 号 ， 对 于 这 个 雷达 而 言 是 0~16。 对 于 这 17 个 上 的 取 值 ， 函 数 会 返回 一 个 复数 域 的 离散 值 。 该 数据 集 的 前 34 个 
等 征 即 这 17 对 函数 值 的 实 部 与 虚 部 。 一 一 译 者 注 
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最 后 一 个 值 是 'g' 或 'b' ,分 别 代 表 好 与 坏 。 


打开 Jupyter Notebook 服务 器 ， 然 后 创建 一 个 名 为 Jonosphere Nearest Neighbors 的 笔 
记 本 。 首 先导 入 依赖 : NumPy 和 csv， 然 后 用 变量 表示 数据 集 的 文件 名 。 

















import numpy as np 
import csy 
data_filename = "data/ionosphere.data" 


创建 用 于 存储 数据 集 的 NumPy 数组 x 和 y。 数 组 大 小 是 数据 集中 已 知 的 。 要 是 不 知道 数据 
集 大 小 也 没关系 ， 在 后 面 的 章节 中 会 介绍 无 须 给 定 大 小 就 能 加 载 数 据 集 的 方法 。 





















































X = np.zeros((351, 34), dtype='float') 

y = np.zZeros((351,), dtype='lbool') 

该 数据 集 是 逗号 分 隔 值 (CSV，comma-separated values ) 格式 的 , 这 个 格式 的 数据 集 很 常见 。 
这 里 我 们 用 csv 模块 加 载 该 文件 。 导 入 文件 并 配置 好 csv 读 取 对 象 ， 然 后 循环 数据 集 文件 ， 以 


在 x 中 填 入 合适 的 行 数据 ， 在 y 中 填 人 各 行 的 类 别 值 。 


with open(data_filename, 'r') as input_file: 
reader = csv.reader (input_file) 
for i, row in enumerate (reader): 


# 取出 数据 ， 转 换 为 浮 点 类 型 





data = [float (datum) for datum in row[:-1]] 
# 向 X 中 填 入 合适 的 行 

X[i] = data 

# 如 果 类 别 是 'g' 则 为 1， 否 则 为 0 

y[i] = row[-1] == 'g' 





如 此 一 来 ,x 的 内 容 就 是 数据 集中 的 样本 和 特征 ， 而 y 则 是 对 应 的 类 别 值 ， 就 像 第 1 章 中 的 
分 类 示例 一 样 。 


首先 尝试 在 这 个 数据 集中 应 用 第 1 章 的 OneR 算法 ,然而 因为 该 数据 集中 的 信息 分 布 在 特定 
特征 的 关联 中 ， 所 以 效果 很 不 理想 。OneR 算法 只 关注 单一 特征 的 值 ， 而 不 能 充分 利用 复杂 数据 
集中 的 信息 。 像 最 近邻 算法 这 样 能 够 合并 多 个 特征 的 信息 算法 虽然 适用 于 更 多 场景 , 但 是 也 会 带 
来 更 高 的 计算 成 本 。 














2.1.4 “形成 标准 的 工作 流程 

scikit-learn 估计 器 有 两 个 主要 函数 : fit () 和 predict (0) 。 我 们 应 在 训练 数据 集中 用 
fit () 训练 模型 ， 而 在 测试 数据 集中 用 preai ct () 测试 模型 。 

(1) 首先 分 割 出 训练 数据 集 和 测试 数据 集 。 导 入 并 运行 之 前 介绍 过 的 train_test_split () 
函数 。 
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from sklearn.cross_validation import train test_split 
XxX _ train, XxX test, y_train, y_test = train test_split (x, y, 
random_state=14) 
(2) 导入 nearest_neighbor 类 ,然后 用 默认 参数 创建 一 个 实例 。 此 时 算法 选取 最 近 的 5 个 
相 邻 样本 ， 以 此 预测 样本 的 类 别 。 本 章 中 后 续 会 测试 这 个 类 的 其 他 参数 。 


from sklearn.neighbors import KNeighborsClassifier 
estimator = KNeighborsClassifier() 


(3) 创建 估计 器 estimator 后 , 应 把 训练 数据 集 传 给 它 的 fit () 方 法 。 它 会 记录 训练 数据 集 
中 的 样本 ， 比 较 新 样本 与 训练 数据 集 ， 在 训练 数据 集中 找 出 新 样本 的 最 近邻 。 


estimator.fit (x train, y_train) 


(4) 之 后 用 测试 数据 集 评估 算法 效果 。 


y_predicted = estimator.predict (X_test) 
accuracy = np.meanl(ly_test == y_predicted) * 100 
print ("The accuracy is {0:.1f}%".format (accuracy)) 


这 个 仅 有 几 行 代码 且 采 用 默认 算法 的 模型 取得 了 86.4% 的 准确 率 ， 这 个 结果 令 人 欣慰 。 由 于 
scikit-learn 中 大 多 数 算法 的 默认 参数 在 选取 时 经 过 了 慎重 考量 ， 因 而 它们 在 许多 数据 集中 
表现 良好 。 尽 管 如 此 ,你 仍 应 该 致力 于 根据 具体 实验 背景 挑选 适当 的 参数 值 。 在 后 续 章 节 中 会 介 
绍 参数 搜索 ( parameter search ) 的 一 系列 策略 。 


















































2.1.5 “运行 算法 

之 前 在 测试 数据 集中 取得 的 运行 结果 已 经 相当 不 错 , 那么 问题 来 了 。 这 会 不 会 是 因为 恰巧 取 
到 了 对 模型 友好 的 测试 数据 集 呢 ? 反之 , 如 果 挑 中 了 情况 最 差 的 数据 集 呢 ? 那么 我 们 很 可 能 因为 
运气 不 好 而 导致 模型 运行 结果 很 差 ， 进 而 错失 正确 的 模型 。 

交叉 验证 ( cross-fold validation ) 框架 是 一 种 标准 的 最 佳 实践 方法 论 ， 用 以 在 数据 挖掘 中 解 
决 测试 数据 集 的 选取 问题 。 它 能 够 通过 多 次 分 割 数据 集 ， 实验 多 对 训练 数据 集 和 测试 数据 集 ， 而 
且 每 个 作为 测试 数据 集成 分 的 样本 只 会 用 到 一 次 。 具 体 过 程 如 下 。 

(1) 把 整个 数据 集 分 割 为 几 个 片段 ， 这 些 片段 被 称 为 折 (fold )。 

(2) 对 数据 集中 的 每 个 折 执 行 如 下 步骤 。 


口 把 这 个 折 作为 测试 数据 集 。 
口 在 其 余 的 折 上 训练 算法 。 
口 在 当前 的 测试 数据 集 上 评估 模型 。 


(3) 汇总 评估 分 值 ， 计 算 平均 分 。 
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招 


在 该 过 程 中 , 每 个 作为 测试 数据 集成 分 的 样本 只 会 用 到 一 次 , 以 减少 ( 而 非 消除 ) 
运气 对 结果 的 影 


1 
《 影响 。 





除非 特别 声明 ， 全 书 中 每 章 的 代码 都 是 一 个 整体 ， 建 议 读者 将 代码 按 章 组 织 成 
Jupyter Notebook 文件 。 


scikit-learn 库 自 带 了 一 些 交叉 验证 方法 , 其 中 的 一 个 辅助 函数 就 能 执行 上 述 过程 。 下面 
我 们 在 Jupyter Notebook 中 导入 这 个 辅助 函数 。 


from sklearn.cross_ validation import cross_val_score 








cross_val_score 默认 用 分 层 K 折 (Stratified K-Fold ) 方法 把 数据 集 分 割 成 多 
个 折 。 在 这 个 方法 分 割 出 的 每 个 折 中 ， 不同 类别 所 占 比 例 几 乎 相同 , 进一步 减少 

4 了 选取 最 坏 情况 的 可 能 。 默认 使 用 这 个 方法 即 可 取得 不 错 的 效果 , 目前 我 们 不 必 
深究 其 原理 。 


接 下 来 ， 调 用 这 个 函数 ， 用 交叉 验证 方法 评估 模型 。 


scores = Cross_Val_Sscore(estimator，X，Yy，Sscoring='accuracy ' ) 
average_accuracy = np.mean(scores) * 100 
print ("The average accuracy is {0:.1f}%".format (average_accuracy) ) 


这 段 代码 对 模型 的 评估 结果 较 之 前 略 差 了 一 些 , 只 有 82.3%。 不 过 考虑 到 我 们 尚未 调 优 参数 ， 
这 个 结果 依然 算是 良好 的 。 下 一 节 将 介绍 如 何 调整 算法 参数 以 取得 更 理想 的 结果 。 


在 数据 挖掘 中 , 重复 实验 却 得 到 不 同 结果 是 很 正常 的 。 折 的 创建 方式 和 某 些 分 类 算法 固有 的 
随机 性 都 会 导致 结果 发 生变 化 。 在 后 面 的 章节 中 ,我们 会 在 实验 开始 前 设置 一 个 随机 起 始 状态 ， 
这 样 一 来 ,就 可 以 重 现实 验 结果 。 在 实践 中 , 多 次 重复 实验 并 分 析 所 有 结果 的 平均 值 和 离散 程度 
( 均值 和 标准 差 ) 是 一 种 不 错 的 思路 。 























2.1.6 设置 参数 
































大 体 来 讲 ， 用 户 能 调整 的 参数 都 可 以 让 算法 更 专注 于 特定 的 数据 集 ， 而 不 是 只 适用 于 特定 
范围 内 的 问题 。 选 取 合格 的 参数 并 不 是 一 件 容易 的 事 ， 而 且 这 种 选择 通常 与 数据 集 的 特征 息 息 





相关 。 


在 最 近邻 算法 的 几 个 参数 中 ， 最 重要 的 就 是 预测 未 知 属性 类 别 时 纳入 考虑 的 最 近邻 的 数 
量 。 在 scikit-learn 中 ， 这 个 参数 名 为 n_neighbors。 图 2-4 展示 了 该 参数 值 过 低 或 过 高 
的 两 种 情况 : 过 低 时 ， 随 机 标记 的 样本 会 导致 分 类 错误 ; 过 高 时 ,结果 中 不 能 体现 出 实际 相似 
的 样本 。 
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图 2-4 


图 (a) 中 ,尽管 原本 应 把 测试 样本 ( 三 角形 ) 归 类 为 圆 形 , 然而 如 采 此 时 n_neighbors 为 1， 
那么 算法 只 会 选中 最 近 的 红色 萎 形 〈 即 噪声 样本 )， 这 样 预 测 结果 就 会 是 菱形 。 虽 然 在 图 (b) 中 ， 
测试 样本 本 应 被 归 类 为 萎 形 , 但 在 n_neighbors 为 7 时 ， 由 于 距离 最 近 的 3 个 邻近 样本 ( 都 是 
菱形 ) 被 数量 更 多 的 圆 形 所 覆盖 ， 因 而 正确 类 别 的 邻近 样本 没有 起 到 应 有 的 效果 。 人 参数 的 选取 是 
最 近邻 算法 的 一 大 难题 ,因为 由 参数 不 同 而 导致 的 差异 可 能 相当 大 。 幸运 的 是 ， 大 多 数 情况 下 特 
定 的 参数 值 并 不 会 过 多 影响 最 终结 果 。 一 般 而 言 ， 使 用 标准 的 参数 值 ( 通常 是 5 或 10 ) 就 能 
出 足够 的 相 邻 样本 。 


根据 这 个 思路 ,我们 可 以 测试 一 系列 n_neignpors 的 取 值 ， 以 研究 该 参数 对 算法 效果 的 影 
响 。 假 如 为 了 选取 n_neighbors 的 参数 值 , 要 对 很 多 值 进行 测试 , 这 些 值 的 取 值 范围 为 1 到 20， 
那么 就 可 以 为 每 次 实验 选取 不 同 的 n_neighbors 值 ， 并 观察 重复 实验 的 结果 。 下 面 的 代码 就 是 
这 样 做 的 ， 其 中 的 avg_scores 和 all_scores 列表 是 用 来 存储 实验 结果 的 。 

avg_scores = [] 

all_scores = [] 

parameter_values = list(range(1，21)) # 包括 20 

for n_ neighbors in Parameter_ Values : 
estimator = KNeighborsClassifier(n neighbors=n neighbors) 
scores = cross_val_ score(estimator, X, y, scoring='accuracy') 


avg_scores.append (np.mean (scores)) 
all_scores.append (scores) 


这 时 ， 我 们 就 可 以 画 出 表示 n_neighbors 取 值 和 算法 准确 率 之 间 关 系 的 折线 图 。 首 先 ， 让 
Jupyter Notebook 以 内 联 方 式 展示 图 表 。 

smatplotlib inline 

然后 从 matplotlib 库 中 导入 pyplot， 分 别 以 n_neignbors 参数 值 为 横 轴 ， 以 算法 的 平 
均 分 数 为 纵 轴 画图 ， 如 图 2-5 所 示 。 


from matplotlib import pyplot as plt 
plt.plot (parameter_values, avg_scores, '-0o') 
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图 2-5 


虽然 图 像 多 有 曲折 , 但 从 该 折线 图 中 仍 可 看 出 参数 值 与 算法 准确 率 的 关系 : 选取 的 近邻 数量 
越 多 , 算法 的 准确 率 越 低 。 要 想 抹 平 折线 图 中 的 曲折 变化 ,更 恰当 地 体现 这 一 规律 ， 在 进行 评估 
时 就 应 把 足够 多 的 差异 纳入 考虑 。 你 可 以 采取 增加 测试 次 数 的 方法 ， 比 如 对 每 个 n_neighbors 
值 运行 100 次 测试 代码 。 


2.2 ” 预 处 理 


在 测量 现实 世界 对 象 时 , 我 们 得 出 的 特征 数值 范围 往往 千差万别 。 比 如 对 动物 的 测量 可 以 得 
出 下 面 儿 个 特征 。 


口 腿 的 条 数 : 大 多 数 动物 有 0~8 条 腿 ， 不 过 也 有 些 动物 拥有 更 多 条 上 腿 。 
口 重量 : 轻 的 可 能 只 有 几 微 赤 ， 重 的 如 蓝 鲸 ， 可 能 有 190 000 千克 。 
口 心脏 的 个 数 : 对 于 虹 晤 而 言 ， 这 个 值 可 以 是 0~5"。 


因为 算法 是 基于 数学 原理 设计 的 ， 所 以 算法 在 比较 特征 时 ， 难 以 解释 特征 在 规模 、 范 围 、 单 
位 上 的 差异 。 对 于 很 多 算法 而 言 ， 上 述 特征 中 对 结果 影响 最 显著 的 是 重量 ， 而 这 仅仅 是 因为 重量 
的 数值 大 ， 而 与 特征 的 实际 效果 无 关 。 

归 一 化 (normalize ) 就 是 一 种 解决 方法 。 它 会 把 特征 的 数值 调整 到 相同 的 区 间 , 或 者 转化 为 
如 小 、 中 、 大 这 样 的 分 类 。 这 样 就 减轻 了 数值 较 大 的 特征 对 算法 结果 带 来 的 负面 影响 ， 从 而 大 大 
提升 了 算法 的 准确 率 。 















































@ 是 晤 的 “心脏 ”并 不 具有 心脏 的 完整 结构 ， 其 实 只 是 主动 脉 马 。 一 一 译 者 注 
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除 归 一 化 以 外 ， 预 处 理工 作 也 可 能 是 挑选 有 效 特征 、 创 建新 特征 等 。 在 scikit-learn 中 ， 
可 以 用 转换 器 ( transformer ) 对 象 来 实现 预 处 理 。 转 换 器 的 输入 是 数据 集 。 传 人 某 种 形式 的 数据 
集 ， 转 换 骨 会 返回 转换 后 的 数据 集 。 转 换 需 不 仅 可 以 进行 处 理 数值 ， 还 可 以 提取 特征 。 不 过 , 本 
节 只 围绕 预 处 理 介绍 转换 如 的 用 法 。 


这 里 以 破坏 前 文 用 到 的 电离 层 数 据 集 为 例 。 现 实 中 ， 很 多 数据 集 存在 例子 中 的 这 类 问题 。 
(1) 首先 复制 一 份 数据 集 ， 以 避免 修改 原始 数据 集 。 


X_broken = np.array (X) 


(2) 然后 破坏 数据 集 ， 把 每 个 样本 中 偶数 位 特征 除 以 10。 


XBDrokentlinsy2] .A=.10 


理论 上 讲 ， 这 样 处 理 并 不 会 对 结果 带 来 多 大 影响 ， 毕 竟 修 改 后 的 特征 值 仍 与 之 前 相对 一 致 。 
主要 问题 是 , 特征 数值 规模 的 变化 会 使 奇数 位 特征 比 偶数 位 特征 数值 规模 大 。 我 们 重新 计算 准确 
率 看 一 下 效果 。 


estimator = KNeighborsClassifier() 

original_scores = cross_val score(estimator, X, y, scoring='accuracy') 

print ("The original average accuracy for is 
{0:.1f}%".format (np.mean (original_scores) * 100)) 

broken_ scores = cross_val_score(estimator, X_ broken, y, 

scoring='accuracy') 

print ("The 'broken' average accuracy for is 

{0:.1f}%".format (np.mean (broken_ scores) * 100)) 



































or 





























之 前 , 算法 在 原始 数据 集中 的 准确 率 高 达 82.3%。 而 在 我 们 人 为 破坏 的 数据 集中 ， 准 确 率 跌 
到 了 71.5%。 归 一 化 处 理 所 有 特征 ， 使 其 值 均 落 在 0~1 区 间 ， 即 可 解决 这 个 问题 。 





2.2.1 标准 预 处 理 
这 里 我 们 将 用 scikit-learn 的 MinMaxScaler 类 进行 预 处 理 。 该 实验 被 称 为 基于 特征 的 
归 一 化 。 在 此 ， 我 们 沿用 本 章 之 前 的 Jupyter 笔记 本 ， 并 首先 导入 这 个 类 。 


from sklearn.preprocessing import MinMaxScaler 


这 个 类 把 特征 值 线 性 映射 到 0~1 区 间 。 该 预 处 理 器 使 特征 的 最 小 值 为 0， 最 大 值 为 1， 而 其 
他 值 在 0~1 取 值 。 


要 应 用 该 预 处 理 器 ， 就 要 在 其 上 运行 transform() 方 法 。 不 过 转换 器 与 分 类 器 一 样 ， 通 常 
要 在 使 用 前 进行 训练 。 通 过 调用 fit_transform() 方 法 ， 可 以 合并 上 述 步 又 。 


XxX_transformed = MinMaxScaler() .fit transform(x) 


x_transformed 虽然 与 xX 的 形状 一 样 ， 但 其 各 列 数 值 变 成 了 0~1 的 值 。 
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针对 其 他 应 用 场景 和 特征 类 型 ， 还 有 更 多 归 一 化 方法 。 























取 1， 反 之 则 取 0。 


口 sklearn.preprocessing.Normalizer: 让 样本 的 各 特征 值 之 和 为 1。 

口 sklearn.preprocessing.Standardscaler: 让 特征 值 均值 为 0， 方差 为 1。 这 通常 
是 归 一 化 处 理 的 第 一 步 。 

口 sklearn.preprocessing.Binarizer: 把 数值 特征 转换 成 二 值 特征 ， 数值 在 阔 值 之 上 








后 续 章 节 会 组 合 运 用 这 些 预 处 理 器 ， 也 会 介绍 其 他 类 型 的 转换 器 。 


i 预 处 理 是 数据 挖掘 中 的 关键 环节 ， 直 接 影响 结果 的 好 坏 。 


2.2.2 组装 成 型 

















现在 我 们 可 以 把 之 前 几 节 的 代码 组 装 成 一 套 工作 流程 , 然后 在 遭 到 我 们 破坏 的 数据 集 上 进行 


亲人 





XxX_transformed = MinMaxScaler() .fit_ transform(X_ broken) 
estimator = KNeighborsClassifier() 
transformed_scores = cross_val_score(estimator, X_ transformed, y, 


scoring='accuracy') 


print ("The average accuracy for is 
{0:.1f}%".format (np.mean (transformed _ scores) * 100)) 


结果 喜人 ， 这 次 算法 准确 率 重 回 82.3%。 既 然 MinMaxScaler 统一 了 特征 的 数值 规模 ， 那 
么 由 部 分 特征 数值 过 大 导致 的 对 算法 的 不 利 影响 也 就 不 复 存在 了 。 最 近邻 算法 容易 被 数值 较 大 的 
特征 误导 ,而 其 他 一 些 算法 则 可 以 更 好 地 处 理 特征 的 数值 规模 差异 。 与 此 相反 ,还 有 一 些 算法 对 





数值 规模 更 为 敏感 。 


2.3 流水线 




















随 着 我 们 数据 挖掘 实验 的 逐渐 深入 与 展开 , 操作 的 复杂 程度 也 不 可 同日 而 语 。 我 们 会 涉及 分 








割 数据 集 、 特 征 二 值 化、 执行 特征 或 样本 的 数值 缩放 等 种 种 操作 。 








全 和 赁 脑力 来 记 住 这 些 步 骤 很 容易 出 个子。 忘记 某 个 步骤 、 在 错误 的 时 机 转换 数据 集 或 者 做 了 


多 余 的 转换 等 ， 都 会 导致 无 法 重 现 正确 的 结果 。 


另外 我 们 也 要 注意 代码 的 | 














质 序 。 在 上 一 节 中 , 我们 创建 了 xX_transformed 数据 集 和 一 个 用 


于 交叉 验证 的 估计 器 。 如 果 步 骤 更 多 ， 我 们 就 要 回 过 头 在 代码 中 寻找 这 些 数据 集 的 变化 。 








流水 线 这 种 结构 就 是 用 来 解决 这 些 问 题 的 ( 其 解决 范围 不 仅 限于 这 些 问题 , 后 面 的 章节 中 会 
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继续 介绍 )。 流水 线 把 各 个 步骤 整合 成 一 套数 据 挖掘 的 流程 。 如 果 把 原始 数据 集 作为 流水 线 的 输 
入 ， 流水线 就 会 在 数据 集 上 执行 所 有 必要 的 转换 ， 然 后 生成 预测 结果 。 这 样 我 们 就 可 以 向 
cross_val_score() 这 样 的 函数 传 入 流水 线 , 此 处 的 流水 线 就 将 作为 参数 所 需 的 估计 器 。 首先 ， 
导入 Pipeline 对 象 。 


from sklearn.pipeline import Pipeline 


流水 线 的 输入 是 一 系列 步骤 , 它 会 将 这 些 数据 挖掘 应 用 串联 在 一 起 。 最 后 一 个 步 又 应 是 估计 
器 ， 而 估计 器 之 前 的 步 又 都 是 转换 器 。 在 使 用 流水 线 时 ， 这 些 转换 器 会 依次 应 用 到 输入 的 数据 集 
上 ， 以 修改 数据 集 的 内 容 。 而 其 中 每 一 步 的 输出 都 会 作为 下 一 步 的 输入 。 最 后 ,用 估计 器 给 样本 
分 类 。 在 我 们 的 流水 线 中 只 有 两 个 步骤 。 


(1) 使 用 MinMaxscaler 缩放 特征 值 ， 把 特征 值 映 射 到 0~1 区 间 。 
(2) 采用 KNeighborsclassifier 作为 分 类 算法 。 


之 后 ， 我们 用 ('name'，step) 形式 的 元 组 表示 步骤 ,并 创建 流水 线 。 


scaling pipeline = Pipeline([('scale', MinMaxScaler()), 
('predict', KNeighborsClassifier())]) 


这 里 的 关键 参数 就 是 这 个 元 组 的 列表 。 第 一 个 元 组 代表 特征 数值 归 一 化 的 步骤 , 第 二 个 元 组 
代表 分 类 的 预测 步骤 。 我们 给 步骤 命名 ,作为 元 组 的 第 一 个 元 素 : 第 一 个 步骤 命名 为 scale, 第 
二 个 步骤 命名 为 predict。 你 也 可 以 自行 为 步骤 取 名 ,元 组 的 第 二 个 元 素 是 实际 的 Transformer 
对 象 或 者 estimator 对 象 。 


运行 这 个 流水 线 ， 就 能 执行 之 前 我 们 写 过 的 交叉 验证 代码 。 


Scores = cross_val_score(scaling pipeline, X_ broken, y, scoring='accuracy') 
print ("The pipeline scored an average accuracy for is 
{0:.1f}%".format (np.mean (transformed_ scores) * 100)) 


因为 实际 运行 的 还 是 之 前 的 步骤 , 只 是 改进 了 接口 的 调用 方式 , 所 以 得 出 的 准确 率 与 之 前 一 
样 ， 都 是 82.3%。 

在 后 续 的 章节 中 ， 我 们 会 使 用 更 高 级 的 测试 方法 。 同 样 ， 我 们 也 会 为 测试 工作 设置 流水 线 ， 
以 避免 代码 复杂 度 不 可 控 地 增长 。 




























































































2.4 ”本 章 小 结 


本 章 中 ,我 们 用 scikit-learn 中 的 儿 个 方法 构建 了 一 套用 于 评估 数据 挖掘 模型 的 工作 流 
程 。 另外， 我 们 还 介绍 了 最 近邻 算法 ， 并 在 scikit-learn 中 将 该 算法 作为 估计 器 实现 。 这 个 
类 的 使 用 很 简单 : 首先 在 测试 样本 集 上 调用 fit () 函数 训练 模型 ， 然 后 用 predict () 函数 来 预 
测 测 试 样 本 的 类 别 。 
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然后 我 们 用 Transformer 对 象 和 MinMaxScaler 类 对 数据 进行 了 预 处 理 ， 修 正 了 特征 数 
值 规模 不 一 致 的 问题 。 这 两 个 对 象 或 类 上 都 有 fit () 和 transform() 方 法 ， 后 者 在 输入 某 种 形 
式 的 数据 集 后 ， 会 返回 转换 后 的 数据 集 。 


读者 可 以 学 二 用 前 文 提 到 的 其 他 转换 器 替代 winvaxscaler， 以 深入 了解 转换 器 的 工人 机 ”上 
制 ， 探 究 转换 器 的 适用 场景 及 它 适 用 的 原因 。 

除 此 之 外 ， 本 书 稍 后 还 会 用 到 scixit -learn 中 其 他 的 转换 器 ， 比 如 PCA。 读 者 可 以 参 
考 内 容 详实 的 scixit -learn 文档 ， 测 试 其 他 转换 器 。 

在 下 一 章 中 , 我 们 会 在 规模 更 大 的 示例 中 运用 这 些 概念 : 用 现实 世界 中 的 数据 预测 体育 比赛 
结果 。 


用 决策 树 预 测 获 胜 球 队 


























本 章 将 用 一 类 全 新 的 算法 来 预测 体育 赛事 中 的 获胜 方 , 这 类 算法 就 是 决策 树 ( decision tree )。 
这 类 算法 与 其 他 算法 相 比 有 许多 优点 ， 其 主要 的 优点 之 一 就 是 可 读 性 好 ， 因 此 适用 于 人 工 决策 。 
这 样 ， 决策 树 可 以 用 来 学 习 一 套 过 程 ， 而 这 套 过 程 在 需要 时 也 可 交 由 人 工 执行 。 决 策 树 的 另 一 个 











优点 是 ， 它 适用 于 包括 分 类 特征 在 内 的 各 种 特征 。 本 章 会 展示 决策 树 的 这 一 优点 。 
本 章 内 容 涵盖 以 下 主题 : 





口 用 banqas 库 加 载 、 操作 数据 ; 

口 用 决策 树 解决 分 类 问题 ; 

口 在 决策 树 的 基础 上 构建 随机 和 森林， 改进 算法 效果 ; 
口 在 数据 挖掘 中 应 用 现实 世界 的 数据 集 ; 

口 创建 新 的 特征 ， 并 在 一 个 稳健 的 框架 中 进行 测试 。 

















3.1 ”加 载 数据 集 


本 章 着 眼 于 预测 美国 国家 篮球 协会 ( NBA ) 比赛 冠军 。 由 于 NBA 比赛 的 赛况 通常 紧张 胶着 ， 
在 最 后 的 几 分 钟 才能 决 出 胜 负 ， 因 而 预测 获胜 队伍 着 实 不 是 一 件 易 事 。 不 过 许多 体育 项 目 有 一 
个 共同 的 特征 : 车 恰 着 天 时， 弱 队 也 能 打败 综合 实力 更 强 的 队伍 。 


诸多 关于 预测 获胜 队伍 的 研究 表明 ,预测 赛事 结果 的 准确 率 存在 一 个 上 限 。 这 个 上 线 取决 于 


体育 项 目 ， 


























一 般 在 70%~80%。 昌 然 关 于 预测 体育 赛事 的 研究 有 很 多 ， 但 其 方法 不 外 乎 两 种 : 数 














据 控 掘 或 是 基于 统计 的 方法 。 


本 章 ; 





各 以 预测 篮球 比赛 获胜 队伍 为 例 ,介绍 一 种 人 门 级 的 决策 树 算法 。 限 于 篇 幅 ， 这 里 介绍 











的 算法 并 不 能 达到 体育 博彩 机 构 所 用 算法 的 水 平 。 他 们 使 用 的 算法 更 高 级 、 更 复杂 ， 最终 也 更 





准 确 O 
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3.1.1 收集 数据 


这 里 我 们 将 用 到 NBA 在 2015~2016 赛季 的 比赛 数据 。Basketball-Reference 网 站 积累 了 数量 
可 观 的 NBA 以 及 其 他 联赛 的 资源 和 统计 数据 。 请 按照 下 面 的 步骤， 从 该 网 站 下 载 我 们 需要 的 数 
据 集 。 


(1) 在 Web 浏览 需 中 访问 http://www.basketball-reference.com/leagues/NBA 2016 games.html。 
(2) 点 击 Share & more。 

(3) 点 击 Get table as CSV (for Excel)。 

(4) 复制 包括 表 头 在 内 的 数据 ， 粘 贴 到 名 为 pasketball .csv 的 文本 文件 中 。 

(5) 选择 其 他 月 份 ， 重 复 上 述 步 又 ， 只 是 不 要 复制 表 头 。 


然后 你 就 得 到 了 一 份 NBA 该 赛季 比赛 结果 的 CSV 文件 ， 其 中 有 1316 次 比赛 ， 算 上 表 头 在 
内 共有 1317 行 。 


CSV 文件 是 文本 文件 , 文件 中 的 每 行 代表 数据 的 一 行 , 行 中 的 各 个 值 由 逗号 分 隔 ( 正 如 CSV 
其 名 )。 我 们 可 以 用 文本 编辑 器 手动 创建 CSV 文件 ， 只 要 在 文本 编辑 器 内 输入 内 容 ， 然 后 将 其 保 
存 为 扩展 名 为 .csv 的 文件 即 可 。CSY 文件 可 以 在 任何 能 读 取 文本 文件 的 程序 中 打开 ， 而 Excel 
还 可 以 把 CSV 文件 作为 工作 表 打 开 。Excel， 或 其 他 支持 工作 表 的 程序 ， 还 可 以 把 工作 表 文 件 转 
换 成 CSV 文件 。 


下 面 我 们 用 pandas 库 来 加 载 这 个 CSV 文件 。pandas 库 的 数据 操作 功能 相当 实用 。 虽 然 
Python 本 身 也 有 一 个 内 置 的 csv 库 ， 提 供 了 CSV 文件 的 读 写 功能 ， 但 此 处 我 们 要 采用 pandas 
库 。pandas 提供 了 更 多 功能 强大 的 函数 ， 在 后 面 的 章节 中 我 们 会 用 这 些 函 数 创 建新 特征 。 






























































本 章 需 要 你 安装 pandas 库 。 最 简单 的 方法 就 是 用 Anaconda 的 conda 包 管 理 虽 
士 
1 


> 音 定 壮 


壮 
安装 ， 方 法 同 第 1 章 安 装 scikit-learn 一 样 。 


第 $ conda install pandas 


如 果 在 安装 pandas 时 遇 到 困难 ， 请 访问 “Get panda!” 网 站 ， 查 阅 针 对 你 所 用 
的 操作 系统 的 安装 说 明 。 


Wy 


3.1.2 用 pandas 加 载 数据 集 

pandas 库 专 精 于 加 载 、 管 理 、 操 作 数 据 ， 它 可 以 在 幕后 处 理 各 种 数据 结构 ， 还 提供 了 与 数 
据 分 析 相 关 的 函数 ， 比 如 计算 均值 的 函数 或 按 值 为 数据 分 组 的 函数 。 

在 数据 挖掘 实验 中 , 你 会 发 现 自己 一 遍 又 一 遍地 编写 相同 的 也 数 ， 比 如 读 取 文件 或 提取 特征 
的 函数 。 每 重新 实现 一 次 这 些 功能 ， 就 增 大 了 引入 bug 的 风险 。 使 用 高 质量 的 bandqas 库 ， 将 大 
大 减少 重复 实现 这 些 功 能 的 工作 。 而 且 pandas 库 中 的 代码 有 成 熟 的 测试 流程 保障 , 能 为 程序 打 
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下 坚实 的 基础 。 
本 书 将 充分 使 用 pandas, 并 由 实际 案例 入 手 介绍 所 涉及 的 函数 。 
我 们 可 以 用 reaa_csv () 函数 加 载 数据 集 。 


import pandas as pd 
data filename = "basketball.csv" 
dataset pd.read csv(data filename) 





其 结果 是 pandas 的 一 个 DataFrame 对 象 。DataFrame 对 象 上 有 许多 有 用 的 函数 , 我 们 在 
后 面 的 内 容 中 会 用 到 它们 。 从 这 份 返回 的 数据 集中 , 我 们 可 以 看 出 几 处 问题 。 输 入 并 运行 下 面 的 
命令 ， 可 以 查看 数据 集 的 前 5 行 。 


dataset .head(5) 

































































A a 
输出 如 图 3-1 所 示 。 

In [2]: dataset.head() 

Out[2]: | |Date start (ET) |Visitor/Neutral PTS |HomelNeutral PTS.1 |Unnamed: 6 | Unnamed: 7 |Notes 
0 |Tue Oct 27 2015 |8:00 pm |Detroit Pistons 106 |Atlanta Hawks 94 Box Score |NaN NaN 
1 |Tue Oct 27 2015 |8:00 pm |Cleveland Cavaliers |95 |Chicago Bulls 97 Box Score |NaN NaN 
2 |Tue Oct 27 2015 |10:30 pm |New Orleans Pelicans |95 |Golden State Warriors |111 |Box Score |NaN NaN 
3|Wed Oct 28 2015 |7:30 pm |Philadelphia 76ers 95 |Boston Celtics 112 |BoxScore |NaN NaN 
4|Wed Oct 28 2015 |7:30 pm |Chicago Bulls 115 |Brooklyn Nets 100 |BoxScore |NaN NaN 

图 3-1 








我 们 没有 配置 任何 参数 ,只 通过 读 取 数据 就 能 展现 这 样 一 份 直观 实用 的 表格 。 不 过 这 其 中 有 
一 些 问 题 ， 我 们 将 在 下 一 节 中 解决 。 
3.1.3 ”清洗 数据 集 
仔细 查看 上 述 的 输出 结果 ， 会 发 现下 面 这 些 问题 : 


口 日 期 列 的 内 容 是 字符 串 ， 而 不 是 日 期 对 象 ; 
口 用 肉眼 观察 即 可 发 现 表 头 不 完整 或 不 正确 。 

因为 这 些 问 题 是 由 数据 本 身 导致 的 ， 所 以 通过 相应 地 修改 数据 即 可 解决 。 不 过 ,如 果 在 修改 
时 忘记 或 误 用 某 些 步 又 ,就 会 导致 结果 无 法 重 现 。 在 前 面 的 几 节 中 , 我 们 用 流水 线 记 录 数 据 集 的 
转换 过 程 ， 而 这 里 我 们 将 用 pangas 直接 转换 原始 数据 本 身 。 


我 们 既 可 以 在 用 pandas .read_csv () 函数 加 载 文件 时 ， 指 定 两 个 参数 “来 解决 上 面 的 两 个 



































Q@ parse_dates 指定 需要 进行 日 期 转换 的 列 ，heager 指定 表 头 。 一 一 译 者 注 
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问题 。 也 可 以 在 文件 加 载 完成 后 手动 修改 表 头 。 
dataset = bpd.readq_csv(dqata_filename，Pparse_dqates=["Date"]) 


dataset.columns = ["Date", "Start (ET)", "Visitor Team", "Visitorpts", 
"Home Team", "HomePts", "OT?", "Score Type", "Notes"] 


俞 出 更 正 后 的 DataFrame， 结 果 焕 然 一 新 ( 见 图 3-2 )。 


dataset .head () 








In [4]: dataset.head() 





out[4] : Date Start (ET) | Visitor Team VisitorPts |Home Team HomePts |OT? Score Type | Notes 








0 |2015-10-27 |8:00 pm Atlanta Hawks 94 Box Score | NaN NaN 





1|2015-10-27 |8:00 pm Chicago Bulls 97 Box Score | NaN NaN 
2|2015-10-27 | 10:30 pm Golden State Warriors |111 Box Score | NaN NaN 
































312015-10-28 | 7:30 pm Boston Celtics 112 Box Score | NaN NaN 
4|2015-10-28 |7:30 pm |Chicago Bulls 115 Brooklyn Nets 100 Box Score | NaN NaN 

















图 3-2 


如 图 3-2 所 示 ， 即 便 是 像 这 样 归 整 好 的 数据 源 ， 也 需要 做 适当 调整 才能 投入 使 用 。 不 同系 统 
之 间 的 细微 差异 也 会 体现 在 其 生成 的 数据 文件 中 ， 这 导致 这 些 数据 文件 的 格式 不 能 完全 互相 兼 
容 。 在 首次 加 载 数据 集 时 ， 一 定 要 检查 所 加 载 的 数据 ， 即 使 已 知 数据 集 的 格式 也 要 如 此 。 另 外 ， 
也 要 留意 数据 类 型 。pandas 中 有 检查 数据 集 格 式 的 办 法 ， 代 码 如 下 。 

print (dataset .dtypes) 

既然 数据 集 的 格式 已 经 与 预想 中 的 一 致 ， 我 们 就 可 以 开始 计算 基线 (baseline ) 了 。 基 线 是 
一 种 针对 给 定 问题 的 简单 方法 ,其 准确 率 比 较 高 。 任 何 一 个 恰当 实现 的 数据 挖掘 解决 方案 都 应 该 








对 于 商品 推荐 系统 而 言 , 推荐 最 热门 的 商品 就 是 一 条 合适 的 基线 。 对 于 分 类 任务 

0 而 言 ， 基线 既 可 以 是 总 是 预测 为 出 现 最 频繁 的 分 类 ， 也 可 以 是 像 OneR 这 样 的 简 

单 算法 。 

在 本 章 的 比赛 数据 集中 ,每 场 比赛 都 有 主队 和 客队 两 支队 伍 参赛 。 最 明显 的 基线 就 是 “正确 
预测 获胜 队伍 的 概率 是 50%"， 即 随机 猜测 的 准确 率 。 换 言 之 ， 如 果 _ 直 随机 选择 队伍 作为 所 预 
测 的 获胜 队伍 ， 且 时 间 足 够 入 的 话 ， 预 测 的 准确 率 就 会 趋 近 50%。 然而， 在 对 领域 知识 有 了 一 点 
了 解 后 ， 我 们 可 以 为 这 个 预测 任务 指定 一 条 更 合适 的 基线 。 下 一 节 将 会 介绍 这 部 分 内 容 。 











3.1.4 提取 新 特征 
我 们 将 通过 组 合 、 比 较 现 有 数据 来 提取 新 的 特征 。 首 先 指 定 类 别 值 ， 以 便于 分 类 算法 据 此 比 
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较 预 测 结果 的 对 错 。 类 别 值 的 编码 方式 有 多 种 。 不 过 针对 本 章 的 应 用 场景 ,我 们 会 将 主队 获胜 的 
情况 编码 为 1， 将 客队 获胜 的 情况 编码 为 0。 在 篮球 比赛 中 ， 得 分 最 多 的 队伍 获 有 性。 因此， 虽然 
数据 中 没有 直接 体现 获胜 队伍 ， 但 我 们 可 以 自行 从 得 分 中 计算 。 



































我 们 可 以 这 样 指 定数 据 集 。 
dataset["HomeWin"] = dataset["VisitorPts"] < dataset["Homepts"] 





接 下 来 ,把 这 些 值 复制 到 一 个 NumPy 数组 中 ， 以 供 scikit-learn 的 分 类 器 稍 后 使 用 。 现 
下 ,虽然 pandas 和 scikit-learn 并 没有 真正 地 集成 到 一 起 , 但 因为 它们 都 使 用 NumPy 数组 ， 
所 以 实际 上 这 两 个 库 很 容易 搭配 使 用 。 这 里 我 们 用 pandas 提取 特征 , 然后 再 把 这 些 特征 值 交 由 
scikit-learn 计算 。 

















y_true = dataset["HomeWin"] .values 

现在 ， 上 述 数 组 以 scikit-learn 能 读 取 的 格式 存储 类 值 。 

顺便 一 提 , 在 预测 获胜 队伍 的 问题 中 ,总 是 预测 主队 为 获胜 队伍 其 实 是 一 种 更 好 的 基线 。 在 
全 世界 范围 内 ， 几 乎 所 有 体育 项 目 中 都 存在 主场 优势 。 我 们 可 以 看 看 这 个 优势 能 有 多 大 。 

dataset["HomeWin"] .mean() 

结果 大 约 是 0.59, 这 表示 主队 赢得 了 59% 的 比赛 。 这 高 于 随机 选择 的 50%,， 而且 这 种 规律 也 
适用 于 其 他 大 多 数 体育 项 目 。 

我 们 还 可 以 创建 新 的 特征 ， 并 将 其 用 于 决策 树 的 输入 值 (也 就 是 x 数组 )。 虽 然 有 时 我 们 
可 以 直接 把 原始 数据 输入 到 分 类 器 中 ， 但 通常 要 从 数据 中 衍生 出 连续 的 数值 特征 或 离散 的 分 类 
特征 。 

针对 当前 数据 集 , 我 们 不 能 直接 采用 当前 形式 的 现 有 特征 来 预测 比赛 结果 。 这 是 因为 在 需要 
做 出 预测 时 ,我 们 不 可 能 提前 得 知 最 终 比分 ,因此 这 些 特征 不 能 直接 用 于 决策 树 。 尽 管 这 显 而 易 
见 ， 然 而 在 实践 中 却 容易 被 忽略 。 

要 预测 本 场 比赛 的 胜 负 , 就 要 先 创建 两 个 特征 ,而 这 两 个 特征 表示 这 两 支队 伍 是 否 赢 得 了 之 
前 的 比赛 。 我 们 通常 认为 赢得 之 前 比赛 的 队伍 就 是 强 队 。 

接 下 来 我 们 要 计算 新 特征 , 方法 是 按 顺序 迭代 各 行 , 并 记录 获胜 队伍 。 每 迭代 到 一 行 新 数据 ， 
就 去 查找 当前 两 支队 伍 上 一 次 交手 的 结 

首先 ,创建 一 个 带 默认 值 的 字典 ， 用 来 存储 队伍 上 一 次 比赛 的 结果 。 


from collections import defaultdict 
won_last = defaultdict (int) 


然后 在 数据 集 上 创建 新 的 特征 列 ， 为 存储 新 特征 值 做 准备 。 
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dataset["HomeLastWin"] = 0 
dataset["VisitorLastWin"] = 0 























该 字典 的 键 为 队伍 , 值 为 两 支队 伍 是 否 亡 得 比赛 。 接 下 来 迭代 各 行 ， 以 按 比赛 结果 更 新 各 行 


中 的 特征 值 。 


for index, row in dataset.iterrows(): 
home_team = row["Home Team"] 
visitor_ team = row["Visitor Team"] 
row["HomeLastWin"] = won_last[home_ teaml] 





dataset.set_value(index, "HomeLastWin", won_last[home, team]) 
dataset.set_ value(index, "VisitorLastWin", won_ last[visitor team]) 


won_last [home_team] = int (row["HomeWin"]) 
won_last[visitor team] = 1 - int (row["HomeWin"]) 

















此 处 要 注意 ， 上 述 代码 依赖 于 数据 集 在 时 间 上 有 序 这 一 性 质 。 这 里 用 到 的 数据 集 是 有 序 的 ， 
但 其 他 数据 集 未 必 。 要 是 遇 到 了 无 序 的 数据 集 , 你 就 需要 用 dataset .sort ("Date") .iterrows () 











替换 此 处 的 aataset.iterrows ()。 


























最 后 两 行 代码 根据 队伍 是 否 赢 得 当前 比赛 更 新 字典 值 为 1 或 0。 在 处 理 两 支队 伍 的 后 续 比 赛 


时 会 用 到 这 两 个 值 。 


运行 上 述 代码 后 ， 我 们 就 计算 出 了 两 个 新 的 特征 值 : HomeLastwin 和 VisitorLastWin。 
用 aataset.head(6) 查 看 最 近 的 主客 队 战 况 以 将 其 作为 示例 。 用 pandas 的 索引 查看 数据 集中 


的 其 他 部 分 。 


dataset.ix[1000:1005] 





本 节 在 迭代 数据 集 时 , 在 首次 迭代 到 任何 队伍 时 ,都 会 默认 其 输 了 上 一 场 比赛 ,即便 首次 迭 
代 到 前 一 年 的 冠军 队伍 时 也 是 如 此 。 要 完善 补充 此 步 所 生成 的 特征 , 你 可 以 把 去 年 的 数据 加 入 计 























算 ， 不 过 本 章 不 会 就 此 展开 论述 。 


3.2 ”决策 树 


i 决策 树 是 一 类 有 监督 学 习 算 法 ,形式 类 似 于 流程 图 ， 也 包含 一 囊 有 序 节 点 。 其 中 


下 一 节点 的 选择 取决 于 上 一 个 节点 的 样本 值 。 
3-3 直观 展示 了 决策 树 是 一 类 有 监督 学 习 算 法 的 原因 。 
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下 雨 了 吗 ? 
否 





下 


两 7 


外 一 外 全 
图 3-3 


像 大 多 数 分 类 算法 一 样 ， 决 策 树 的 工作 机 制 也 可 以 分 为 两 个 阶段 。 


口 第 一 个 阶段 是 训练 ， 即 用 训练 数据 生成 决策 树 。 虽 然 上 一 章 提 到 的 最 近邻 算法 是 没有 训 
练 步骤 的 ， 但 对 于 决策 树 而 言 ， 训 练 步骤 是 必需 的 。 最 近邻 算法 只 在 需要 预测 的 时 候 才 
开始 读 取样 本 参与 计算 。 这 样 的 处 理 方式 就 是 惰性 学 习 (lazy learning ); 相反 ， 像 大 多 数 
分 类 算法 一 样 ， 决 策 树 在 训练 时 就 开始 计算 ， 从 而 减少 了 预测 阶段 的 工作 量 。 这 样 的 处 
理 方式 就 是 急切 学 习 〈eager learning )。 

口 第 二 个 阶段 是 预测 , 即 用 训练 好 的 决策 树 给 新 样本 分 类 。 在 图 3-3 中 的 决策 树 中 , 值 为 ["is 
raining"，"very winqy"] 的 样本 就 会 归 类 为 坏 天 气 。 





























oat 











生成 决策 树 的 算法 有 多 种 ， 其 中 大 多 是 办 代 方 法 。 迭代 方法 从 根 节点 开始 ， 选 出 
最 适合 首 个 决策 的 特征 , 然后 在 下 一 个 节点 上 选 出 下 一 个 最 合适 的 特征 , 以 此 类 
OP 推 。 当 扩展 决策 树 的 节点 不 能 再 带 来 收益 时 ， 算 法 退出 。 


scikit-learn 包 所 实现 的 默认 决策 树 类 就 是 分 类 回归 树 (CART classification 
and regression tree )， 这 个 类 了 既 支 持 连续 特征 ， 也 支持 分 类 特征 。 
3.2.1 决策 树 的 参数 


决策 树 最 重要 的 参数 之 一 就 是 停止 准则 ( stopping criterion )。 在 即将 完成 决策 树 的 构建 时 ， 
最 后 几 项 决策 通常 仅 依 赖 于 一 小 撮 样 本 ， 随 意 性 很 强 。 如 果 把 这 样 的 节点 纳入 决策 树 ， 会 导致 其 
在 训练 数据 上 严重 过 拟 合 。 为 了 避免 这 种 过 拟 合 ， 就 需要 引入 停止 准则 。 


如 果 不 引 入 停止 准则 , 那么 我 们 可 以 在 生成 完整 的 决策 树 之 后 修剪 它 。 这 个 修剪 过 程 会 移 除 
那些 在 整个 过 程 中 贡献 较 少 信息 的 节点 。 这 个 修剪 过 程 叫 作 剪 校 (pruning )。 剪 枝 能 通过 避免 决 
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策 树 在 训练 数据 中 过 拟 合 ， 改 善 其 在 新 数据 集中 的 表现 。 
scikit-learn 中 的 决策 树 实现 提供 了 几 个 选项 ， 可 以 指定 停止 决策 树 生 成 的 时 机 。 








D min_samples_split 指定 创建 决策 新 节点 所 需 的 最 低 样本 数量 。 
D min_samples_leaf 指定 保留 节点 所 需 的 最 低 返回 样本 数量 。 

















第 一 个 参数 决定 是 否 创建 决策 节点 ， 而 第 二 个 参数 决定 是 否 保留 决策 节点 。 








决策 树 还 有 指定 决策 创建 条 件 的 参数 ， 其 中 最 常见 的 是 基尼 不 纯度 ( Gini impurity ) 和 信息 
增益 ( information gain )。 
口 基尼 不 纯度 关注 决策 树 节 点 错误 预测 样本 分 类 的 概率 。 
口 信息 增益 ”用 计算 信息 论 箭 的 方式 来 衡量 决策 节点 带 来 的 额外 信息 量 。 

这 两 个 参数 如 出 一 略 ， 都 能 选取 恰当 的 规则 或 值 作为 分 割 决策 节点 到 子 节 点 的 触发 条 件 。 尽 
管 这 个 值 本 身 只 关乎 划分 所 用 的 指标 ， 然 而 它 对 最 终 的 模型 有 十 分 重要 的 影响 。 














3.2.2 ”决策 树 的 使 用 
让 我 们 导入 scikit-learn 中 的 DecisionTreeClassifier 类 ， 以 创建 一 棵 决策 树 。 


from sklearn.tree import DecisionTreeClassifier 
clf = DecisionTreeClassifier(random state=14) 


这 里 再 次 用 14 作 为 random_state， 本 书 大 多 数 时 候 也 是 如 此 ， 因 为 只 有 使 用 
人 一 致 的 随机 种 子 才 能 重 现 实验 结果 。 不 过 在 以 后 自行 实验 的 时 候 , 你 应 该 选取 不 
同 的 随机 状态 ， 以 确保 算法 性 能 不 与 特定 随机 种 子 绑 定 。 
现在 我 们 要 从 pandasDataFrame 中 提取 数据 集 ， 并 将 其 用 于 scikit-learn 分 类 髓 。 
此 我 们 选取 所 需 的 列 ， 并 使 用 DataFrame 视图 的 值 参 数 。 下 面 这 行 代 码 用 主队 和 客队 的 上 一 次 
比赛 结果 形成 数据 集 。 
X_previouswins = dataset[["HomeLastWin", 
决策 树 类 也 是 第 2 章 介 绍 的 估计 器 的 一 种 ， 它 也 提供 了 fit () 和 predict() 方 法 ,并且 可 
以 用 cross_val_score () 来 计算 平均 性 能 评分 (跟前 面 的 估计 器 用 法 是 一 样 的 )。 


"VisitorLastWin"]] .values 




















from sklearn.cross_validation import cross_val_score 

import numpy as np 

scores = cross val_ score(clf, Xx previouswins, y_true, 
scoring='accuracy') 

print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


其 准确 率 达 到 了 59.4%， 比 随机 选择 要 准 得 多 ! 不 过 这 个 成 绩 没 有 打破 只 押 主 队 获胜 的 基线 
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水 平 。 事 实 上 ， 现 在 我 们 做 的 跟 只 押 主 队 获 胜 也 没什么 两 样 ， 不 过 我 们 还 可 以 继续 改进 算法 。 
特征 工程 (feature engineering ) 是 数据 挖掘 中 最 为 坏 手 的 工作 之 一 ， 而 且 特 征 选取 的 好 坏 是 结果 
好 坏 的 关键 一 一 这 比 算法 的 选取 还 要 重要 。 























3.3 体育 赛事 结果 预测 


我 们 已 经 有 了 测试 模型 准确 率 的 方法 ， 也 就 可 以 尝试 其 他 特征 的 效果 会 不 会 更 好 。 用 
cross_val_score 测试 模型 的 准确 度 ， 并 尝试 选用 新 的 特征 。 

可 以 选用 的 特征 有 很 多 ， 但 我 们 从 以 下 问题 和 人手。 
口 哪 支 队伍 一 般 被 认为 更 强 ? 
口 双方 队伍 上 次 交手 时 ， 其 中 的 哪 支队 伍 获 胜 了 ? 

我 们 也 可 以 把 新 队伍 的 战况 交 由 算法 计算 , 以 检验 算法 是 否 能 够 训练 出 描述 各 队伍 交手 时 表 
现 差 异 的 模型 。 















































针对 第 一 个 问题 , 我 们 可 以 利用 上 一 赛季 的 积分 榜 ( 其 他 体育 项 目 中 可 能 称 为 天 梯 榜 ) 数据 
创建 一 个 用 于 指示 强 队 的 特征 。 上 一 赛季 ( 2014~2015 ) 中 排名 较 高 的 队伍 即 可 视 为 强 队 。 

按照 以 下 步骤 获取 积分 榜 数 据 。 

(1) 在 Web 浏览 器 中 访问 https:/www.basketball-reference.com/leagues/NBA 2015_standings.html。 

(2) 点 击 Expanded Standings ， 可 以 看 到 整个 NBA 的 赛况 总 表 。 

(3) 点 击 Export 链接 。 

(4) 复制 数据 并 保存 到 你 数据 文件 夹 下 的 CSV/ 文 本 文件 standing.csv 中 。 

回 到 Jupyter Notebook 中 ， 在 新 的 输入 框 里 输入 下 列 代码 。 要 注意 数据 文件 是 否 确实 保存 在 
data_folder 变量 指向 的 路 径 下 。 


import os 
standings_filename = os.path.join(data_folder, "standings.csv") 
standings = pd.read csv(standings_filename, skiprows=1) 


运行 下 面 这 行 代码 查看 天 梯 榜 数据 。 
standings.head() 


输出 如 图 3-4 所 示 。 
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In [29]: ,standings .head() 








Out[20]: [Rk [Team Overall Home [Road | |w A |c [se |..|post |sa |zao Oct |Nov Dec | an |Feb |Mar [Apr 





of1 [Golden State Warriors |67-15 |39-2 |28-13 |25-5 [42-10 9-1 |7-3 |9-1 |…|25-6 |5-3145-9 |1-0 [132 113|12-3 |8-3 16-2 |6-2 





1|2 [atanta Hawks 60-22 |35-6 |25-16 |38-14 |22-8 12-6 |14-4 |12-4 |... |17-11 |6-4 |30-10 |0-1 |9-5 14-2 |17.0 |7-4 9-7 |4s 





2|3 |Houston Rockets 56-26 |30-11 [26-15 |23-7 [33-19 9-1 |8-2 |6-4 |...|20-9 |8-4 |31-14|2-0 [114 9-5 [116 7:3 10-6 |6-2 





3|4 | Los Angeles Clippers 56-26 |30-11 [26-15 |19-11 |37-15 7-3 |6-4 |6-4 |...|21-7 |3-5|33-9 |2-0 [95 11.6 |11-4 |5-6 115|70 









































4|5 |wemphis Grizzlies 55-27 31-10 | 24-17 |20-10 |35-17 8-2 |5-5 |7-3 |.. [16-13|9-3|26-13|2-0 [132 8-6 |124|74 9-8 |4s 











3-4 


接 下 来 , 创建 新 特征 。 方 法 与 之 前 一 样 : 迭代 数据 集中 的 各 行 ， 查 找 客 队 和 主队 的 积分 。 其 
代码 如 下 。 


dataset["HomeTeamRanksHigher"] = 0 

for index, row in dataset.iterrows(): 
home_team = row["Home Team"] 
visitor_ team = row["Visitor Team"] 





home_rank = standings[standings["Team"] == home team] ["Rk"] .values[0] 
Visitor_rank = standings[standings["Team"] == visitor team] ["Rk"] .values [0] 
row["HomeTeamRanksHigher"] = int(home rank > visitor_rank) 


dataset.set_value(index, "HomeTeamRanksHigher", int (home_ rank < 
visitor_rank)) 


之 后 用 cross_val_score () 国 数 测试 结果 。 首 先 ， 提 取 数 据 集 。 


X_homehigher = dataset[["HomeLastWin", "VisitorLastWin", 
"HomeTeamRanksHigher"]] .values 


然后 ， 创 建 DecisionTreeClassifier 并 评估 模型 。 


clf = DecisionTreeClassifier(random state=14) 
scores = cross_ val_ score(clf, Xx homehigher, y_true, scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


现在 , 我 们 得 到 了 60.9% 的 准确 率 , 不 仅 比 上 次 的 结果 要 好 , 还 超过 了 只 押 主 队 获 胜 的 水 平 。 
还 有 更 好 的 办 法 吗 ? 


下 一 步 ,我 们 看 看 双方 队伍 上 一 次 交手 时 ,， 哪 支队 伍 取 得 了 胜利 。 尽 管 积 分 榜 可 以 在 某 种 程 
度 上 给 出 有 关 胜 方 的 提示 《高 排名 的 强 队 取胜 概率 大 )， 不 过 有 时 弱 队 也 能 打败 强 队 。 有 很 多 原 
因 可 以 导致 这 种 情况 ， 比 如 采用 具有 针对 性 的 战术 或 球员 ,就 能 获得 相当 不 错 的 成 效 。 此 处 还 是 
沿用 之 前 的 方法 : 创建 存储 以 往 比赛 胜 方 的 字典 ， 并 在 DataFrame 中 创建 新 特征 。 代 码 如 下 。 


last_match winner = defaultdict (int) 
dataset ["HomeTeamWonLast"] = 0 











for index, row in dataset.iterrows(): 
home_team = row["Home Team"] 
visitor team = row["Visitor Team"] 
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teams = tuble(sorted( [home_team，visitor_ team])) # 排序 以 保证 顺序 一 臻 
# 在 当前 行 中 记录 上 次 交手 的 胜 方 
home_team won last = 1 if last_match winner[teams] == row["Home Team"] else 0 


dataset.set_value(index, "HomeTeamWonLast", home_ team won_last) 

# 本 次 比赛 的 胜 方 

winner = row["Home Team"] if row["HomeWin"] else row[l"Visitor Team"] 
last_match winner[teams] = winner 





这 个 特征 跟 之 前 基于 榜 单 的 特征 很 类 似 ， 只 不 过 这 次 是 创建 了 名 为 teams 的 元 组 ， 并 把 结 
果 存 储 在 前 面 的 字典 中 ， 而 不 是 检视 积分 榜 。 双 方 队伍 下 一 次 交手 时 ,该 特征 会 重新 创建 这 个 元 
组 , 然后 查找 上 一 次 比赛 的 结果 。 我 们 的 代码 将 不 再 区 分 比赛 在 主场 还 是 客场 进行 , 这 也 是 实现 
中 的 一 处 改进 。 


然后 , 我 们 要 评 人 算法。 评估 过 程 与 之 前 并 没有 什么 区 别 ， 只 不 过 要 把 新 特征 加 入 到 所 提取 
的 值 中 。 


XxX_lastwinner = dataset[["HomeTeamWonLast", "HomeTeamRanksHigher", 
"HomeLastWin", "VisitorLastWin",]].values 
clf = DecisionTreeClassifier(random state=14, criterion="entropy") 






































scores = cross_ val_score(clf, Xx lastwinner, y_true, scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


这 次 的 准确 率 是 62.2%。 我 们 的 结果 逐步 提升 。 


最 后 , 我 们 要 检验 把 这 么 多 数据 导入 决策 树 之 后 ,能 否 训练 出 有 效 的 模型 。 我 们 将 把 新 队伍 
输入 到 决策 树 中 ， 来 看 看 它 是 否 能 吸收 这 些 信息 。 


虽然 决策 树 可 以 用 分 类 特征 训练 模型 ， 但 是 scikit-learn 中 的 决策 树 实现 不 支持 字符 串 
格式 的 特征 值 ， 因 此 在 使 用 它 之 前 需要 把 特征 值 编码 为 数值 。 用 LabelEncoder 转换 器 可 以 把 
以 字符 串 形式 表示 的 队伍 名 转换 成 整 型 数 。 代 码 如 下 。 

from sklearn.preprocessing import LabelEncoder 

encoding = LabelEncoder () 

encoding.fit (dataset["Home Team"] .values) 

home_teams = encoding.transform(dataset["Home Team"] .values) 


visitor teams = encoding.transform(dataset["Visitor Team"] .values) 
XxX_teams = np.vstack([home teams, visitor teams]).T 


在 主队 和 客队 上 应 该 应 用 相同 的 转换 器 ,以 保证 编号 一 致 。 虽 然 这 种 做 法 在 该 应 用 场景 中 并 
不 能 提升 多 少 性 能 ， 却 是 重要 的 一 步 ， 因 为 如 果 不 这 样 做 ,就 可 能 降低 未 来 其 他 模型 的 性 能 。 


之 后 这 些 整 型 数 就 可 以 交 由 DecisionTreeclassifier 使 用 了 , 但 DecisionTreeclassifier 
仍 会 按照 连续 特征 来 理解 它们 。 例 如 ， 若 队伍 编号 是 0~16 的 整 型 数 ， 那 么 算法 会 认为 队伍 1 和 
队伍 2 水 平 相 近 ， 队 伍 4 与 队伍 10 相差 较 远 ， 但 是 这 样 的 比较 方式 毫 无 意义 ， 因 为 所 有 队伍 都 
是 独立 个 体 ， 双 方 队伍 要 么 是 同一 支队 伍 ， 要 么 截然 不 同 。 
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OneHotEncoder 转换 器 可 以 修正 这 种 特征 转换 带 来 的 不 一 致 。 它 会 把 整 型 数 的 特征 值 转换 
成 数值 型 的 二 元 特征 值 ， 每 个 二 元 特征 值 对 应 一 个 整 型 数 的 特征 值 。 比 如 LabelEncoder 给 芝 
加 哥 公 牛 队 分 配 的 是 整 型 数 7， 那 么 oneHotEncoder 处 理 芝加哥 公牛 队 时 ， 返回 的 第 7 位 特征 
就 是 1， 而 对 应 其 他 队伍 的 特征 位 则 是 0。 每 个 可 能 的 取 值 都 会 做 这 样 的 转换 ， 而 这 也 会 让 数据 
集 变 得 更 大 。 代 码 如 下 。 

from sklearn.preprocessing import OneHotEncoder 


onehot = OneHotEncoder() 
X_teams = onehot .fit transform(X teams) .todense!() 


接 下 来 ， 在 现在 的 数据 集 上 运行 之 前 的 决策 树 算法 。 


clf = DecisionTreeClassifier(random state=14) 






























































SCores = cross_val_scorel(clf, XxX teams, y_true, scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 
尽管 只 使 用 了 参赛 队伍 这 一 数据 ， 然 而 这 次 62.8% 的 准确 率 比 之 前 要 好 。 但 是 ， 如 果 特 征 的 


数量 进一步 增加 , 那么 决策 树 可 能 不 能 妥善 处 理 数据 。 鉴 于 此 , 我 们 将 尝试 更 换算 法 并 验证 结果 。 
在 数据 挖掘 中 ， 以 迭代 的 方式 不 断 尝 试 换 用 新 算法 和 新 特征 这 一 做 法 屡见不鲜 。 








3.4 ”随机 森林 


单 棵 决策 树 虽 然 能 学 习 相 当 复 杂 的 函数 , 但 很 容易 出 现 过 拟 合 , 即 训练 出 的 规则 
只 在 特定 的 数据 集中 奏效 ， 而 不 能 推广 到 新 数据 中 。 


解决 上 述 问 题 的 一 种 方法 是 限制 决策 树 要 学 习 的 规则 的 数量 。 比 如 , 我 们 可 以 做 出 限制 , 使 
决策 树 最 多 只 能 有 3 层 。 这 样 的 决策 树 可 以 学 习 到 在 全 局 层面 上 最 优 的 数据 集 分 割 规则 , 但 是 丧 
失 了 学 习 到 能 把 数据 集 精准 分 割 到 正确 分 组 的 高 精度 规则 的 能 力 。 采 取 这 种 权宜 之 计 的 决策 树 或 
许 能 适用 于 大 多 数 情况 ， 但 在 训练 数据 集 上 的 总 体 表 现 较 之 前 略 有 退步 。 


不 过 , 我 们 可 以 创建 多 棵 限制 了 规则 数量 的 决策 树 ， 并 让 每 棵 决策 树 都 参与 类 别 的 预测 ， 从 
而 抵消 限制 带 来 的 不 良 影响 。 我们 可 以 根据 “少数 服从 多 数 ” 原 则 ， 选 出 总 体 的 预测 结果 。 随 机 
森林 这 一 算法 就 是 由 此 思路 发 展 而 来 。 


上 述 的 过 程 中 仍 有 两 个 问题 尚 待 解决 。 一 是 决策 树 的 生成 是 非常 具有 确定 性 的 过 程 ， 即 相同 
的 输入 总 会 得 到 相同 的 输出 。 在 只 有 一 份 数据 集 的 情况 下 , 创建 多 棵 决策 树 时 的 输入 总 是 相同 的 
( 因而 输出 也 是 一 样 的 )。 为 了 解决 这 个 问题 。 我 们 可 以 在 现 有 数据 集中 随机 采样 ,生成 多 份 新 的 
数据 集 。 这 个 生成 新 数据 集 的 过 程 叫 作 装 袋 (bagging ) “算法 ， 它 在 数据 挖掘 的 许多 场景 下 均 有 
应 用 。 




























































































GD bagging 是 bootstrap aggregating (引导 聚集 ) 的 缩写 。 译 者 注 
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二 是 如 果 用 相似 的 数据 生成 许多 决策 树 , 那么 前 几 个 决策 节点 选取 的 特征 也 会 差不多 。 即 便 
采用 训练 数据 集 的 随机 采样 ,所 生成 的 多 棵 决策 树 也 仍 可 能 近乎 相同 。 为 此 ,在 分 割 数 据 集 时 还 
要 随机 选取 特征 子 集 ， 以 避免 在 不 同 决策 树 中 出 现 相 同 的 特征 。 


这 样 一 来 , 我 们 就 要 随机 地 对 数据 集 采样 , 随机 地 生成 决策 树 ， 并 选用 ( 近乎 ) 随机 的 特征 。 
这 就 是 随机 森林 ( random forest ) 的 思路 。 虽 然 不 太 直 观 ， 但 它 无 须 调 优 参数 ， 就 能 在 很 多 数据 
集中 奏效 。 















































3.4.1 集成 学 习 的 原理 


随机 森林 所 固有 的 随机 性 不 禁 让 人 觉得 其 所 生成 算法 的 结果 优 劣 全 赁 运气 。 不 过 , 通过 对 近 
乎 随机 地 生成 的 决策 树 取 平均 值 ， 我 们 可 以 降低 算法 的 方差 。 


方差 (variance ) 是 由 算法 所 用 的 训练 数据 集 的 样本 间 差 异 引 入 的 那 部 分 误差 
(error )。 算 法 本 身 的 方差 越 大 ( 比如 决策 树 )， 它 受训 练 集 中 样本 间 差 异 的 影响 

Gi 就 越 大 ,方差 体现 在 模型 中 , 就 是 过 拟 合 的 程度 ,与 之 形成 对 比 的 是 , 偏差 (bias ) 
是 由 算法 中 的 假设 引入 的 ,而 与 数据 集 无 关 。 比 如 某 算 法 假定 所 有 的 特征 均 服从 
正 态 分 布 ， 在 实际 情况 与 此 不 符 时 ， 算 法 的 偏差 会 很 高 。 


通过 分 析 数 据 集 并 检验 实际 数据 是 否 满足 分 类 器 的 模型 要 求 ， 就 可 以 减 小 偏差 带 来 的 负面 


园 / 
影响 。 


举 个 极端 的 例子 ， 如 果 无 论 输 入 的 数据 是 什么 ,分 类 器 永远 返回 同一 个 结果 , 那么 这 个 分 类 
器 的 偏差 就 会 相当 高 。 而 如 果 分 类 器 永远 随机 抽 选 类 别 作为 预测 结果 , 那么 这 个 分 类 需 的 方差 就 
会 特别 大 。 虽 然 这 两 个 分 类 器 的 错误 率 都 会 大 得 惊人 ,但 两 者 原理 锭 然 不 同 。 

通过 对 大 量 决策 树 的 结果 取 平 均 , 可 以 大 大 减 小 方差 。 这样 得 到 的 模型 通常 有 更 高 的 总 体 准 
确 率 和 更 强 的 预测 能 力 ， 但 也 增加 了 计算 时 间 ， 并 给 算法 带 来 了 更 高 的 偏差 。 

总 而 言 之 , 集成 学 习 基 于 这 样 一 种 假设 : 预测 中 的 错误 足够 随机 ， 而 且 各 个 分 类 锅 所 返回 的 
错误 也 这 然 不 同 。 通 过 对 众多 模型 的 结果 取 平 均 ， 就 能 去 伪 存 真 ， 消 除 错 误 的 预测 结果 。 在 本 书 
的 后 续 内 容 中 ， 还 会 有 更 多 用 到 集成 学 习 的 内 容 。 










































































3.4.2 ”设置 随机 森林 的 参数 


scikit-learn 中 的 随机 森林 实现 是 RandomForestClassifier 类 ， 而 它 的 参数 数量 不 
少 。 随 机 森林 会 生成 多 个 DecisionTreeClassifier 实例 ， 这 些 实例 共用 像 criterion ( 基 
尼 不 纯度 / 炉 增 /信息 增益 )、max_features、min_samples_split 这 样 的 参数 。 


在 集成 学 习 过 程 中 ， 还 会 用 到 下 面 几 个 新 参数 。 
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口 n_estimators: 指定 生成 的 决策 树 数量 。 决 策 树 的 数量 越 多 ,运行 时 间 就 越 长 , 但 结果 
也 越 准确 。 
DQ oo0ob_score: 如 果 结 果 为 TU 那么 该 方法 会 在 其 他 样本 上 进行 测试 ， 而 不 用 训练 决策 
树 时 所 使 用 的 那 部 分 数据 集 。 
口 n_jobs: 指定 参与 并 行 计算 生成 决策 树 的 CPU 核心 数量 。 

scikit-learn 包 内 置 的 并 行 计算 功能 是 由 Joblib 实现 的 。 这 个 参数 可 以 决定 要 使 用 的 核 
心 的 数量 。 如 果 没 有 给 定 n_jobs， 那么 该 参数 默认 只 使 用 1 个 CPU 核心 。 你 可 以 根据 实际 情况 
使 用 更 大 的 值 ， 或 者 直接 将 该 参数 设置 成 -1 以 使 用 全 部 的 CPU 核心 。 











3.4.3 ”应 用 随机 森林 


scikit-learn 中 的 随机 森林 也 实现 了 估计 器 的 接口 , 这 样 我 们 就 可 以 使 用 与 之 前 基本 一 样 
的 代码 进行 交叉 验证 。 

from sklearn.ensemble import RandomForestClassifier 

clf = RandomForestClassifier(random state=14) 


scores = cross_val_scorel(clf, XxX teams, y_true, scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


这 回 准确 率 提高 到 了 65.3%， 其 效果 立竿见影 一 仅仅 把 分 类 器 换 成 随机 森林 就 使 准确 率 提 
升 了 2.5% 之 多 。 


由 于 随机 森林 的 输入 是 特征 子 集 , 因而 在 处 理 数量 更 多 的 子 集 时 , 它 应 该 会 比 普 通 的 决策 树 
更 高 效 。 这 里 向 随机 森林 输入 更 多 的 特征 ， 测 试 一 下 效果 。 

XxX_all = np.hstack([X_lastwinner, Xx_teams]) 

clf = RandomForestClassifier(random state=14) 


scores = cross_ val_ score(clf, Xx all, y_true, scoring='accuracy') 
print ("Accuracy: {0:.1f}%".format (np.mean(scores) * 100)) 


这 次 的 准确 率 是 63.3%， 回 落 了 一 点 点 。 究 其 原因 ,一 是 随机 森林 本 身 是 随机 的 ， 在 特征 选 
取 上 有 运气 因素 。 更 进一步 讲 ，x_teams 的 特征 数量 远 多 于 x_1lastwinner， 而 且 多 出 的 特征 
没有 带 来 更 多 的 相关 信息 。 即 便 如 此 ,你 也 不 要 为 准确 率 的 小 幅 波 动 患得患失 ， 因 为 比 起 随机 状 
态 的 变化 对 准确 率 的 影响 ,由 特征 选取 导致 的 差异 就 小 巫 见 大 下 了 。 与 之 相反 ,你 应 该 在 不 同 随 
机 状态 下 进行 反复 测试 ， 这 样 才能 得 出 准确 率 的 均值 和 分 布 情况 。 


我 们 也 可 以 尝试 GridqsearchcvV 类 中 的 其 他 参数 。 


from sklearn.grid search import GridSearchCV 

































































parameter_space = { 
"max_features": [2, 10, 'auto'], 
"n_estimators": [100, 200], 
"criterion": ["gini", "entropy"], 
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"min_samples_leaf": [2，4，6]， 


} 


clf = RandomForestClassifier(random state=14) 

grid = GridSearchCV (clf, parameter_space) 

grid.fit (x all, y_true) 

print ("Accuracy: {0:.1f}%".format (grid.best_score * 100)) 


这 次 的 准确 率 提升 显著 ,达到 了 67.4%1! 


我 们 可 以 输出 网 格 搜 索 〈 grid search ) 找到 的 最 佳 模型 ， 来 看 看 到 底 使 用 了 什么 样 的 参数 。 
代码 如 下 。 


print (grid.best_estimator_) 


输出 结果 会 展示 得 分 最 高 的 模型 使 用 了 什么 样 的 参数 。 


RandomForestClassifier(bootstrap=True, class weight=None, criterion='entropy', 
max depth=None, max features=2, max leaf nodes=None, 
min samples_ leaf=2, min samples_ split=2, 
min weight fraction leaf=0.0, n estimators=100, n jobs=1, 
Oo0ob_score=False, random state=14, verbose=0, warm start=False) 




















3.4.4 创建 特征 

从 之 前 的 几 个 例子 中 , 我 们 可 以 看 出 特征 选取 对 算法 性 能 有 相当 大 的 影响 。 我们 只 在 特征 上 
做 文章 ， 且 仅仅 经 过 几 轮 测试 就 得 到 了 10% 以 上 的 性 能 提升 。 
用 pangas 中 一 个 很 简单 的 函数 就 可 以 创建 新 特征 ， 操 作 如 下 。 


dataset["New Feature"] = feature creator() 


这 个 feature_creator () 图 数 会 返回 一 个 特征 值 列 表 , 而 列表 中 的 值 与 数据 集中 的 样本 一 
一 对 应 。 一 般 我 们 以 该 数据 集 作为 这 个 函数 的 参数 。 


dataset["New Feature"] = feature_creator (Qataset) 


你 也 可 以 直接 把 所 有 的 特征 值 都 设置 为 一 个 默认 值 。 比 如 在 下 面 这 行 行 代码 中 , 特征 值 就 被 
设置 为 0。 

dataset["My New Feature"] = 0 

之 后 你 就 可 以 迭代 数据 集中 的 各 行 ,以 计算 出 特征 值 。 本 章 中 所 用 到 的 许多 特征 就 是 用 这 种 
方法 创建 的 。 


for index, row in dataset.iterrows(): 
home_team = row["Home Team"] 
visitor team = row[l"Visitor Team"] 
# 此 处 计算 特征 值 ， 并 修改 该 行 
dataset.set_value (index, "FeatureName", feature value) 
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不 过 要 注意 , 这 种 迭代 的 方法 效率 不 高 。 如 果 你 确实 需要 这 样 做 , 那么 最 好 在 一 次 迭代 中 设 
置 好 所 有 特征 值 。 








OP 一 种 常见 最 佳 实践 即 尽 可 能 少 地 访问 每 个 样本 ,如 果 一 定 要 访问 , 那么 最 好 只 访 
问 一 次 。 





这 里 给 出 了 一 些 特征 作为 示例 ， 你 可 以 尝试 实现 一 下 。 


口 队伍 上 一 次 比赛 距离 这 场 比赛 有 多 少 天 ?如 果 短 时 间 内 参赛 过 于 频繁 ， 队 伍 就 可 能 疲 于 
应 付 将 来 的 比赛 。 
口 双方 队伍 在 最 近 的 5 场 比赛 中 获胜 了 几 场 ?我们 之 前 从 数据 集中 提取 出 了 HomeLastwin 
和 VisitorLastwin 特征 ， 此 特征 会 比 它们 更 加 稳定 ， 而 且 提 取 方 法 也 基本 一 样 。 
口 队伍 是 否 会 在 客场 与 特定 队伍 交手 时 取得 好 成 绩 ? 例如 某 个 队伍 在 某 个 场馆 比赛 就 会 顺 
风 顺 水 ， 即 使 是 作为 客队 出 场 。 

如 果 你 在 提取 这 些 特 征 时 遇 到 问题 ， 可 以 查阅 pandas 的 文档 ， 看 看 有 没有 需要 的 内 容 。 也 
可 以 到 Stack Overflow 这 样 的 在 线 论 坛 寻 求 帮助 。 

如 果 要 细致 人 微 地 研究 ,你 可 以 把 球员 的 数据 纳入 考量 ， 以 评估 双方 队伍 的 战斗 力 , 预测 比 
赛 结 果 。 提取 这 样 复杂 的 特征 对 于 体育 博彩 机 构 和 赌 徒 而 言 只 是 家 常 便 饭 , 而 且 只 有 这 样 才能 把 
对 比赛 结果 的 预测 转化 成 真 金 白银 的 利润 。 



































3.5 ”本 章 小 结 


本 章 展 开 介 绍 了 scikit-learn 分 类 骨 的 用 法 ， 并 引入 了 pandas 来 管理 数据 。 我 们 分 析 
了 真实 的 NBA 比赛 数据 ， 着 手 解决 了 一 些 即 便 是 在 规整 的 数据 中 也 会 遇 到 的 格式 问题 ， 并 且 还 
为 后 续 分 析 创建 了 新 特征 。 


我 们 还 研究 了 特征 对 分 类 算法 性 能 的 影响 ， 并 使 用 了 一 种 集成 学 习 算法 来 提升 算法 的 准确 
率 。 这 个 算法 就 是 随机 森林 。 你 可 以 在 此 基础 上 创建 更 多 的 特征 并 测试 其 效果 , 找 出 能 提升 算法 
性 能 的 特征 。 如 果 这 些 特征 没 能 奏效 ,那么 你 可 以 考虑 加 入 其 他 数据 集 。 例 如 ， 关 键 球员 负伤 就 
可 能 会 让 强 队 失 利 ， 输 掉 整 场 比赛 。 


第 4 章 会 扩展 第 1 章 介 绍 的 亲 和 性 分 析 的 用 法 ,构建 一 个 查找 相似 电影 的 程序 ,还 会 展示 如 
何 使 用 算法 排序 ， 以 及 如 何 用 近似 法 改善 数据 挖掘 的 可 伸缩 性 。 
































用 杀 和 性 分 析 推 荐 电影 











本 章 ,， 我 们 将 着 眼 于 亲 和 性 分 析 ( affinity analysis )， 这 个 方法 可 以 找 出 事物 间 的 频繁 共 现 关 
系 。 亲 和 人 性 分 析 俗称 购物 篮 分 析 (market basket analysis )， 这 是 因为 它 最 常用 于 找 出 经 常 一 起 售 
出 的 商品 。 


在 第 3 章 中 , 我 们 关注 某 件 事物 并 用 特征 来 描述 它 。 而 在 本 章 ， 数 据 的 形式 有 所 不 同 。 我 们 
有 一 些 交易 数据 ， 其 中 包含 消费 者 可 能 感 兴趣 的 物品 (本章 中 是 电影 )。 通 过 某 种 方式 ， 我 们 可 
以 利用 这 些 物品 的 交易 数据 来 找 出 物品 间 的 共 现 规律 。 如 此 ,就 可 以 用 亲 和 性 分 析 来 找 出 某 两 部 
电影 由 同一 名 用 户 推 荐 的 情况 。 

本 章 的 关键 概念 如 下 : 
口 用 亲 和 性 分 析 做 商品 推荐 ; 
口 用 Apriori 算法 挖掘 特征 关联 ; 
口 推荐 系统 和 内 在 挑战 ; 
口 稀 玻 数据 格式 及 其 用 法 。 


4.1 杀 和 性 分 析 


亲 和 性 分 析 可 以 确定 事物 同时 出 现 的 情境 。 在 上 一 章 中 , 我 们 以 篮球 比赛 为 例 , 关注 事物 ( 比 
赛 ) 本 身 是 否 相似 。 亲 和 性 分 析 通 常 在 某 种 形式 的 交易 数据 中 使 用 。 直 观 上 ， 交 易 数据 可 以 来 自 
于 商店 中 的 交易 : 只 要 找 出 常常 同时 售 出 的 商品 ， 就 能 向 消费 者 推荐 他 们 可 能 感 兴趣 的 商品 。 


不 过 ， 亲 和 性 分 析 也 可 以 用 于 非 交 易 场 景 ， 比 如 : 


口 欺诈 检测 ; 
口 客户 细 分 ; 
口 软件 优化 ; 
口 商品 推荐 。 


亲 和 性 分 析 从 现象 中 发 现 关联 的 能 力 远 强 于 分 类 。 在 亲 和 性 分 析 中 ,我们 通常 可 以 对 结果 
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进行 简单 排序 ， 然 后 取 前 5 位 ( 更 多 或 更 少 都 行 ) 推荐 给 用 户 ， 而 不 是 让 算法 给 出 单一 、 明 确 的 


结 


男 外 ,许多 分 类 算法 需要 完整 的 数据 集 。 但 事与愿违 , 我 们 手 上 的 数据 集 通常 不 够 完整 。 例 
如 , 在 电影 推荐 问题 中 , 虽然 我 们 可 以 拿 到 不 同人 对 不 同 电 影 的 评论 数据 , 但 要 让 每 个 观众 都 对 
数据 库 中 的 所 有 电影 发 表 评 论 就 不 太 现 实 了 ,这 也 给 亲 和 性 分 析 任 务 埋 下 了 一 个 重要 且 难 以 解决 
的 问题 :如 果 用 户 没 有 在 某 部 电影 下 发 表 评 论 , 那 么 这 能 说 明 什 么 呢 ” 是 他 们 对 电影 不 感 兴趣 ( 
而 不 推荐 这 部 电影 )， 还 是 他 们 还 没 看 过 电影 ? 

仔细 思考 你 的 数据 集中 有 哪些 不 足 会 导致 这 样 的 问题 。 反 过 来 , 这 些 问题 的 答案 也 是 提升 分 
析 方 法 效率 的 线索 。 作 为 一 名 刚 人 门 的 数据 挖掘 工作 者 ， 了 解 你 的 模型 和 方法 论 中 有 哪些 可 以 改 
进 之 处 是 取得 良好 成 效 的 关键 。 

























































































4.1.1 亲 和 性 分 析 算 法 


第 1 章 介 绍 了 亲 和 性 分 析 的 一 种 基础 方法 。 该 方法 检验 了 所 有 可 能 的 规则 组 合 , 并 计算 了 每 
条 规则 的 置信 和 度 和 支持 度 ， 以 此 对 规则 进行 排序 ， 从 而 找 出 最 佳 规则 。 


不 过 这 个 方法 效率 堪忧。 第 1 章 的 数据 集中 只 有 5 种 在 售 商品 。 然 而 ,不 难 想象 ， 即 便 是 小 
型 商店 也 有 数 百 种 在 售 商品 ， 而 在 线 商 店 更 是 有 数 千 甚至 数 百 万 种 在 售 商品 。 如 果 使 用 第 1 章 中 
那样 朴素 的 规则 创建 方法 , 计算 时 间 就 会 呈 指 数 级 增长 。 商 品 品种 越 多 , 计算 时 间 就 增加 得 越 快 。 
具体 来 计 ， 所 有 可 能 规则 的 总 数 是 2 -1。 对 于 有 5 种 商品 的 数据 集 ， 共 有 31 条 可 能 的 规则 。 对 
于 有 10 种 商品 的 数据 集 ， 则 有 1023 条 规则 。 而 仅仅 当 商 品 增加 到 100 种 时 ， 其 规则 条 数 就 是 一 
个 30 位 的 大 数 了 。 随 着 在 线 商 店 中 商品 种 类 的 增加 ， 规 则 的 数量 迅猛 增长 ， 即 使 计算 机 运算 能 
力 增 长 速度 如 此 之 快 ， 也 无 法 应 对 。 因 此 ,我 们 需要 更 智能 的 算法 ， 而 不 是 运算 速度 更 快 的 计算 
机 来 扭转 这 种 局 面 。 


Apriori 算法 就 是 亲 和 性 分 析 的 一 种 经 典 算 法 。 它 可 以 从 数据 集中 找 出 频繁 出 现 的 项 , 并 创建 
集合 ， 以 规避 指数 级 的 复杂 计算 。 这 些 频 繁 出 现 项 的 集合 叫 作 频 繁 项 集 ( frequent itemset )。 抠 | 
这 些 频繁 项 集 ， 就 可 以 创建 关联 规则 ， 这 个 步骤 将 在 稍 后 介绍 。 


Apriori 算法 的 直观 原理 简单 而 精巧 。 首 先 ， 确 保 规则 在 数据 集中 有 足够 的 支持 度 。Apriori 
中 的 关键 参数 是 最 小 支持 度 。 频 繁 项 集 由 更 小 的 频繁 项 集 组 合 而 成 。 假 设 要 求 项 集 (A, B) 的 支持 
度 至 少 达到 30,， 那么 A 和 B 在 数据 集中 出 现 的 次 数 都 要 至 少 达 到 30。 这 个 性 质 也 可 以 推广 到 
更 大 的 项 集中 。 如 果 项 集 (A, B, C, D) 是 频繁 项 集 ， 那 么 项 集 (A, B, C) 肯 定 也 是 频繁 项 集 。 同 样 ， 
D 也 一 定 是 频繁 项 集 。 


这 样 ， 既 构建 出 了 频繁 项 集 , 也 区 分 出 了 非 频 繁 项 集 。 非 频繁 项 集 的 数量 比 频繁 项 集 要 多 得 
多 ， 但 算法 不 会 在 非 频繁 项 集中 检验 规则 ， 这 样 就 节省 了 大 量 的 时 间 。 
























































































































































亲 和 人 性 分 析 中 的 其 他 典型 算法 ,包括 Eclat 算法 和 FP-growth 算法 在 内 ， 也 基于 上 文 所 述 的 
这 种 概念 或 类 似 的 概念 。 在 有 关 数 据 挖掘 的 文献 中 , 可 以 见 到 这 些 算法 的 许多 改良 版 本 ,它们 大 
幅 提升 了 这 种 方法 的 性 能 。 不 过 本 章 只 就 基本 的 Apriori 算法 进行 前 述 。 





4.1.2 ”总 体 方法 


为 了 执行 亲 和 性 分 析 中 的 关联 规则 挖 气 ， 首 先 需 要 用 Apriori 算法 生成 频繁 项 集 。 然 后 ， 要 
在 这 些 频繁 项 集中 测试 前 提 和 结论 组 合 ， 以 创建 关联 规则 ( 比如 用 户 如 果 推 荐 了 电影 X， 那么 也 
会 推荐 电影 Y )。 


(1) 第 一 阶段 ,为 Apriori 算 法 指定 一 个 最 小 支持 度 ， 以 此 判别 频繁 项 集 。 低 于 此 支持 度 的 项 
集 将 被 视 为 非 频 繁 项 集 。 














最 小 支持 度 设 置 过 低 会 导致 Apriori 在 过 多 的 项 集中 测试 规则 ， 这 会 严重 影响 算 
法 性 能 ; 而 设置 过 高 ， 则 会 导致 被 标记 为 频繁 项 集 的 项 集 数 量 过 少 。 





(2) 第 二 阶段 ， 在 找 出 频繁 项 集 后 ， 以 置信 度 为 指标 ， 测 试 关联 规则 。 这 时 既 可 以 选取 一 个 
最 低 置 信和 度 ， 以 返回 一 定数 量 的 规则 ; 也 可 以 返回 全 部 规则 ， 让 用 户 来 决定 如 何 处 理 。 











本 章 只 让 算法 返回 给 定 置信 度 以 上 的 规则 ,为 此 ,我 们 需要 设置 一 个 最 小 置信 度 。 
人 如 果 设 置 的 最 小 置信 度 过 低 , 那么 尽管 算法 返回 的 规则 支持 度 会 很 高 , 但 并 不 准 
确 ; 而 设置 得 过 高 , 则 返回 的 规则 虽然 更 准确 , 但 数量 更 少 , 占 总 体 比 例 也 更 低 。 


4.2 ”电影 推荐 问题 


商品 推荐 是 一 门 大 生意 。 在 线 商 店 会 通过 推荐 消费 者 可 能 会 购买 的 其 他 商品 , 对 其 进行 追加 
销售 。 而 更 精准 的 推荐 会 更 好 地 促进 销量 增长 。 在 每 年 有 数 百 万 消费 者 在 线 购 物 的 今天 , 追加 销 
售 的 潜在 利润 不 可 小 视 。 


商品 推荐 , 包括 电影 和 图 书 推荐 ， 已 经 不 是 新 间 题 了 。 尽 管 已 有 多 年 的 研究 历史 , 但 它 并 没 
有 受到 特别 关注 。 然 而 ， 在 2007 年 至 2009 年 间 ，Netfilx 设立 了 Netflix Prize 奖项 后 ， 这 个 领域 
得 以 迅速 发 展 。 这 个 奖项 致力 于 发 掘 比 Netflix 现 有 算法 更 优秀 的 电影 评分 预测 算法 。 只 要 新 算 
法 的 性 能 超出 Netflix 现 有 算法 10%， 参 与 者 即 可 摘 取 Netflix Prize 桂冠 。 这 种 提升 幅度 虽 不 大 ， 
却 可 以 使 Netflix 提供 更 好 的 电影 推荐 服务 ， 从 而 带 来 数 百 万 的 年 利润 。 






























































获取 数据 集 


自 Netflix Prize 设立 以 来 ， 明尼苏达 州 大 学 的 一 个 研究 小 组 Grouplens 就 发 布 了 几 份 常用 于 
测试 电影 推荐 算法 的 数据 集 ， 其 中 包括 多 个 版 本 的 、 大 小 不 同 的 电影 评分 数据 集 ， 其 评论 数据 数 
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量 从 10 万 、100 万 到 1000 万 条 不 等 。 


你 可 以 从 https://grouplens.org/datasets/movielens/ 下 载 这 些 数 据 集 ， 本 章 中 选用 的 是 包含 10 
万 条 评论 的 MovieLens 100K 数据 集 。 请 下 载 这 个 数据 集 并 在 数据 文件 夹 中 解压 。 然 后 打开 一 
个 新 的 Jupyter Notebook， 并 输入 下 面 的 代码 。 


import os 

import pandas as pd 

data_folder = os.path.join(os.path.expanduser ("~"), "Data", "ml-100k") 
ratings_filename = os.path.join(data_ folder, "u.data") 


注意 要 把 ratings_filename 指向 解压 后 的 目录 下 的 u.data。 


1. 用 pandas 加 载 数据 集 4 


虽然 MovieLens 数据 集 是 已 经 规整 好 的 ， 但是， 我 们 还 是 要 调整 一 下 pandas .reagd_csv 
中 的 默认 选项 。 首 先 ， 这 份 数 据 是 用 制 表 符 分 割 的 ， 而 不 是 逗号 。 其 次 ， 这 份 数据 没有 表 头 ， 也 
就 是 说 第 一 行 就 是 实际 的 数据 ， 因 此 我 们 需要 手动 设置 列 名 。 

在 加 载 文件 时 ， 我 们 不 仅 需要 把 分 隔 符 参 数 设置 为 制 表 符 ， 还 要 让 pandas 跳 过 表 头 识别 
(header=none )， 并 手动 将 列 名 设置 为 给 定 值 。 代 码 如 下 。 


all_ratings = pd.read csv(ratings_filename, delimiter="t", header=None, 
names=["UserID", "MovieID", "Rating", "Datetime"]) 


你 可 以 用 下 面 这 行 代码 把 时 间 惟 转换 为 正确 的 日 期 对 象 ， 不 过 本 章 的 分 析 中 不 考虑 时 间 
素 。 在 电影 推荐 预测 中 , 评论 的 时 间 是 一 个 重要 的 特征 ， 因 为 相 较 于 分 别 评论 的 电影 , 一 同 评论 
的 电影 评分 会 更 相近 。 根 据 这 个 思路 ， 可 以 大 大 提升 模型 的 性 能 。 

all_ratings["Datetime"] = pd.to datetime(all_ ratings['Datetime'], unit='s') 

在 新 的 输入 框 中 运行 下 面 的 代码 ， 就 可 以 检视 数据 集中 的 前 几 行 数据 。 


all_ratings.head() 


结果 如 表 4-1 所 示 。 









































































































































表 4-1 
UserlD MovielD Rating Datetime 
0 196 242 3 1997-12-04 15:55:49 
1 186 302 3 1998-04-04 19:22:22 
2 22 377 1 1997-11-07 07:18:36 
3 244 S51 2 1997-11-27 05:02:03 
4 166 346 1 1998-02-02 05:33:16 
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2. 稀 琉 数据 格式 


本 章 用 的 数据 集 是 稀 琉 格式 的 。 可 以 这 样 理解 ,每 一 行 都 代表 前 几 章 中 用 到 的 那 种 大 型 特征 
和 矩阵 中 的 一 个 元 素 ， 其 中 行 表示 用 户 ， 列 表示 电影 。 这 个 数据 集 的 第 一 列 是 每 个 用 户 对 第 一 部 电 
影 的 评论 ， 第 二 列 是 每 个 用 户 对 第 二 部 电影 的 评论 ， 以 此 类 推 。 


数据 集中 大 约 有 1000 个 用 户 和 1700 部 电影 ， 因 此 整个 矩阵 会 相当 大 ( 大 概 200 万 个 元 素 )。 
把 这 么 大 的 一 个 完整 矩阵 存放 到 内 存 中 并 对 其 进行 计算 困难 重重 。 好 消息 是 利用 这 个 矩阵 本 身 的 
性 质 就 可 以 解决 这 一 问题 。 和 矩阵 中 有 很 多 空 元 素 ， 也 就 是 说 ， 大 多 数 电影 下 的 评论 不 多 ， 而 且 大 
多 数 用 户 评论 的 电影 数量 也 很 少 。 在 本 章 的 数据 集中 ，213 号 用 户 没 有 就 675 号 电影 发 表 评 论 ， 
而 这 样 没 有 产生 评论 的 用 户 - 电 影 组 合 还 有 很 多 。 

这 里 ， 数 据 集 的 格式 是 以 紧凑 形式 展示 的 完整 矩阵 。 第 一 行 表 示 196 号 用 户 在 1997 年 12 月 
4 日 就 242 号 电影 发 表 了 评论 ， 并 为 电影 打出 了 3 分 (5 分 制 )。 

将 数据 集中 没有 评论 的 用 户 - 电 影 组 合 视 为 不 存在 ， 而 不 是 在 内 存 中 存储 一 大 串 0， 会 节省 
相当 大 的 空间 。 这 种 格式 就 是 稀 玖 和 矩阵 格式 。 关 于 稀 玖 矩阵 有 一 条 经 验 法 则 : 如 果 数 据 集中 空 
或 零 值 占 60% 以 上 ， 就 可 以 用 稀 玖 矩阵 来 降低 存储 空间 需求 。 























































































































用 稀 芍 矩阵 进行 计算 通常 是 为 了 避免 处 理 矩 阵 中 不 存在 的 数据 , 即 不 与 零 值 进行 
比较 ， 而 是 关注 已 有 数据 并 互相 比较 。 


4.3 Apriori 算法 的 原理 与 实现 

本 章 的 目标 是 产生 这 样 的 规则 : 用 户 如 果 推 荐 了 某 些 电影 ， 那 么 也 会 推荐 这 部 电影 。 本 章 也 
会 扩展 讨论 “推荐 某 些 电影 的 用 户 也 倾向 于 推荐 另外 一 部 电影 ”的 情况 。 

首先 判断 用 户 是 否 推荐 了 某 部 电影 。 创 建 一 个 名 为 Favoraple 的 特征 。 如 果 用 户 针 对 电影 
发 表 了 正面 评论 ， 则 该 特征 值 为 True。 

all_ratings["Favorable"] = all ratings["Rating"] > 3 

检视 数据 集 ， 查 看 我 们 新 增加 的 特征 。 


all_ratings[10:15] 


结果 见 表 4-2。 


















































UserlD MovielD Rating Datetime Favorable 
10 62 257 2 1997-11-12 22:07:14 False 
1 286 1014 5 1997-11-17 15:38:45 True 
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( 续 ) 

UserlD MovielD Rating Datetime Favorable 
12 200 222 5 1997-10-05 09:05:40 True 
13 210 40 3 1998-03-27 21:59:54 False 
14 221 29 3 1998-02-21 23:40:57 False 





之 后 , 在 数据 集中 采样 , 形成 训练 数据 。 这 也 会 减 小 要 搜索 的 数据 集 的 大 小 , 从 而 提升 Apriori 
算法 的 运行 速度 。 这 里 我 们 获取 前 200 个 用 户 的 所 有 评论 。 

ratings = all1_ratings [all1_ratings['UserID'].isin(zange(200))] 

接 下 来 ， 为 本 例 创 建 只 包含 正面 评论 的 数据 集 。 


favorable ratings mask = ratings["Favorable"] 
favorable _ ratings = ratings[favorable ratings_mask] 


然后 , 搜索 用 户 的 正面 评论 以 找 出 项 集 。 所 以 , 我们 接 下 来 需要 找 出 每 个 用 户 给 出 正面 评价 























的 电影 。 可 以 这 样 操 作 : 根据 UserID 对 数据 集 进行 分 组 ， 并 和 迭代 每 个 分 组 中 的 电影 。 
favorable_reviews_by users = qict( 
(K，frozenset (V.Values)) for K，V in 
favorable_ ratings.groupby ("UserID")["MovieID"]) 














在 上 面 的 代码 中 ， 我 们 将 值 存储 为 frozenset。 这 样 可 以 快速 检测 某 部 电影 下 是 否 有 某 个 
用 户 的 评论 。 


这 种 类 型 的 操作 ， 在 集合 中 比 在 列表 中 快 得 多 。 因 而 我 们 会 在 之 后 的 代码 中 继续 使 用 集合 。 
最 后 ， 为 了 计算 每 部 电影 的 好 评 频 度 ， 我 们 创建 DateFrame。 

num_ favorable by_movie = ratings[["MovieID", "Favorable"]] .groupby ("MovieID").sum() 
运行 下 面 的 代码 ， 即 可 展示 排名 前 $ 的 电影 的 好 评 情况 。 


Dum_favorable_py movie.sort_values (by="Favorable", ascending=False) .head() 


在 排名 前 5 的 电影 的 列表 中 ， 现 在 只 有 电影 的 ID ( 见 表 4-3 )。 在 本 章 后 续 内 容 中 ， 我 们 会 
把 电影 的 标题 加 入 进来 。 
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表 4-3 
MovielD Favorable 
50 100 
100 89 
258 83 
181 79 


174 74 
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4.3.1 Apriori 算 法 的 基本 思路 


Apriori 算法 是 亲 和 性 分 析 方法 论 的 一 部 分 ， 专 门 用 于 找 出 数据 中 的 频繁 项 集 。Apriori 算法 
的 基本 流程 是 : 从 发 现 的 前 一 个 频 索 项 集中 构建 新 的 候选 项 集 , 并 且 检 查 这 些 候选 项 集 是 否 为 频 
繁 项 集 ， 之 后 算法 就 会 如 下 所 述 这 样 迭代 下 去 。 


(1) 将 各 项 单独 作为 集合 ,作为 初始 的 频繁 项 集 ,这 一 步 中 只 会 选用 满足 最 小 支持 度 要 求 的 项 。 

(2) 通过 找 出 现 有 频繁 项 集 的 超 集 ， 从 最 后 发 现 的 频繁 项 集 创建 新 的 候选 项 集 。 

(3) 检验 所 有 候选 项 集 是 否 为 频繁 项 集 。 如 有 果 候选 项 集 不 是 频繁 项 集 ， 则 丢弃 。 如 果 此 步 没 有 
确认 新 的 频繁 项 集 ， 则 直接 进入 最 后 一 步 。 

(4) 记录 新 发 现 的 频繁 项 集 ， 然 后 回 到 第 (2) 步 。 

(5) 返回 发 现 的 所 有 频繁 项 集 。 


图 4-1 展示 了 上 述 过 程 。 
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第 (1D) 步 : 
创建 长 度 为 1 的 初始 频繁 项 集 
第 O) 步 : 
用 现 有 频繁 项 集 的 超 集 (K+1) 创建 候选 项 集 | “ 
第 G) 步 : 
检验 项 集 是 否 为 频繁 项 集 ， 并 只 保留 频繁 项 集 
第 (4) 步 : - 
第 3 步 是 否 发 现 了 新 的 频繁 项 集 ? 碟 ? 
| 
第 (5) 步 : 
返回 发 现 的 所 有 频繁 项 集 





























图 4-1 
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4.3.2 ”实现 Apriori 算 法 


在 Apriori 算法 第 一 次 迭代 时 ， 新 发 现 的 项 集 长 度 为 >， 这 个 项 集 是 第 (1) 步 创建 的 初始 项 集 
的 超 集 。 在 第 二 次 迭代 时 (包括 在 第 (4) 步 中 回 到 第 (2) 步 的 情况 )， 新 发 现 的 项 集 长 度 为 3。 我 们 
可 以 利用 这 个 性 质 快速 甄别 新 发 现 的 项 集 ， 为 第 (2) 步 所 用 。 

可 以 把 项 集 的 长 度 作为 键 , 在 字典 中 存放 发 现 的 频繁 项 集 。 这 样 就 可 以 快速 访问 指定 长 度 的 
项 集 ， 因 而 也 可 以 访问 最 后 发 现 的 频繁 项 集 。 可 以 用 下 面 的 代码 实现 这 个 字典 。 

frequent_itemsets = {} 

我 们 还 需要 定义 最 小 支持 度 ， 用 于 判断 项 集 是 否 为 频繁 项 集 。 这 个 值 的 选取 应 基于 数据 集 ， 
不 过 你 也 可 以 尝试 不 同 的 值 , 研究 它 对 结果 的 影响 我 建议 以 10% 的 幅度 调整 最 小 支持 度 ,因为 
即使 这 样 算法 的 运算 时 间 变 化 也 会 很 大 。 下 面 设置 最 小 支持 度 。 


min_ support = 50 
















































































在 实现 Apriori 算法 的 第 一 步 时 ， 要 创建 一 个 包含 每 部 电影 的 项 集 ， 并 检验 这 个 
种 项 集 是 否 为 频繁 项 集 。 这 里 我 们 用 到 了 frozenset， 这 种 数据 结构 可 以 快速 执 
行 集合 运算 ， 并 可 以 作为 计数 字典 的 键 (一般 的 集合 是 做 不 到 的 )。 


下 面 来 看 看 frozenset 的 示例 代码 。 


frequent_itemsets[1] = dict((frozenset( (movie id,)), row["Favorable"]) 
for movie_ id, row in num favorable by_ movie.iterrows() 
if row["Favorable"] > min_ support) 


方便 起 见 ， 我 们 在 这 里 创建 一 个 函数 ， 以 同时 实现 第 (2) 步 和 第 (3) 步 。 这 个 函数 接受 新 发 现 
的 频繁 项 集 ， 创 建 超 集 ， 并 检验 项 集 是 否 为 频繁 项 集 。 首 先 ， 按 照 下 面 的 步骤 定义 函数 。 


from collections import defaultdict 




















def find_ frequent_itemsets (favorable reviews_ by users, k_1 itemsets, 
min_support): 
counts = defaultdict (int) 
for user, reviews in favorable_reviews_by users.items() : 
for itemset in k_1_ itemsets : 
if itemset .issubset (reviews): 
for other_reviewed movie in reviews - itemset: 
current_superset = itemset | 
frozenset ((other_reviewed movie, )) 
counts[current_superset] += 1 
return dict([(itemset, frequency) for itemset, frequency in 
counts.items() if frequency >= min_support]) 


这 个 函数 坚持 了 之 前 提 到 的 一 条 经 验 法 则 : 尽 可 能 少 地 读 取 数 据 。 每 次 调用 这 个 函数 只 会 迭 
代 一 次 数据 集 。 虽 然 这 对 该 实现 影响 并 不 大 〈 此 处 的 数据 集 对 于 一 般 的 计算 机 而 言 非常 小 )， 但 
在 更 大 规模 的 应 用 中 ， 这 样 的 单 遍 法 〈single-pass ) 正 是 最 佳 做 法 。 
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我 们 来 探究 该 函数 。 它 迭代 各 个 用 户 以 及 之 前 所 发 现 的 每 一 个 项 集 , 并 检查 它 是 否 是 当前 评 
论 集合 的 子 集 。 而 该 集合 存放 于 k_1_itemsets (注意 此 处 的 k_1 代表 -1) 之 中 。 如 果 答 案 


是 肯定 的 ， 就 代表 用 户 评 论 过 项 集中 的 每 一 部 电影 。 对 于 当前 电影 , 会 有 个 候选 频繁 项 集 。 该 
步骤 可 以 通过 itemset .issubset (reviews ) 一 行 来 实现 。 


然后 ， 处 理 用户 评 论 过 的 每 部 〈 项 集中 没有 的 ) 电影 ， 并 把 项 集 和 新 电影 组 合作 为 超 集 ,在 
计数 字典 中 记录 该 超 集 出 现 的 次 数 。 这 里 会 有 个 候选 的 频繁 项 集 。 


我 们 在 函数 的 结尾 检验 候选 项 集 的 支持 度 ,并 只 返回 那些 支持 度 大 于 min_support 的 项 集 ， 
即 频 党 项 集 。 


这 个 函数 已 经 实现 了 Apriori 算 法 的 核心 。 然 后 我 们 创建 循环 ,迭代 算法 外 层 的 步骤, 计算 
从 1 到 最 大 值 的 不 同 结果 并 存储 起 来 。 在 循环 里 , k 代表 将 要 发 现 的 频繁 项 集 长 度 ， 因 此 访问 
frequent_itemsets 字典 的 k-1 键 就 能 获取 最 后 发 现 的 频繁 项 集 。 我 们 创建 频繁 项 集 ， 然 后 
以 长 度 为 键 将 其 存储 到 字典 中 。 代 码 如 下 。 
for k in range(2, 20): 
# 从 长 度 为 k-1 的 频繁 项 集 生成 长 度 为 上 的 候选 项 集 ， 且 只 保留 频繁 项 集 
CuULT_freduent_itemsets = find frequent_itemsets!( 
favorable _ reviews_by_users, frequent_itemsets[k-1], min_ support) 
if len(cur_frequent_itemsets) == 0: 
print ("Did not find any frequent itemsets of length {}" .format (k)) 
sys.stdout.flush() 
break 
else: 
print ("I found {} frequent itemsets of length {}".format (lenl( 
cur_frequent_itemsets), k)) 
sys.stdout.flush() 
frequent_itemsets[k] = cur_frequent_itemsets 


如 果 发 现 了 频繁 项 集 , 我 们 就 打印 一 条 消息 ， 以 示 循 环 会 继续 运行 。 如 果 在 当前 的 值 下 没 
有 发 现 频繁 项 集 ， 那 么 长 度 为 f+1 的 频繁 项 集 就 不 存在 ， 这 时 我 们 停止 迭代 ， 并 结束 算法 。 


此 处 用 到 了 sys.staqout .flush()， 它 可 以 确保 代码 在 运行 中 也 能 实时 输出 所 
打印 的 消息 。 在 特定 输入 框 中 运行 大 型 循环 时 , 有 时 代码 在 结束 运行 后 才 会 输出 
és 打印 的 消息 。 以 这 种 方式 刷新 输出 可 以 保证 所 打印 的 消息 在 预期 时 刻 输 出 , 而 不 
是 让 接口 自行 分 配 打 印 输出 的 时 间 。 不 过 刷新 输出 也 不 宜 太 频繁 ,因为 刷新 不 但 
会 带 来 计算 成 本 (与 普通 的 打印 一 样 )， 而 且 会 拖 慢 程序 的 运行 速度 。 
现在 你 就 可 以 运行 上 面 的 代码 了 。 上 面 的 代码 会 返回 大 约 2000 个 不 同 长 度 的 频繁 项 集 。 你 
会 注意 到 项 集 数量 先是 随 着 长 度 增 长 而 增加 ,之 后 又 随 之 下 降 。 最初, 项 集 数量 因为 可 能 的 规则 
变 多 而 增长 ; 但 要 不 了 多 久 , 许多 组 合 的 支持 度 就 不 足以 使 其 归 为 频繁 项 集 了 , 项 集 数量 也 就 随 
之 缩减 。 这 个 缩减 过 程 就 是 Apriori 算法 的 优点 。 如 果 我 们 在 所 有 可 能 的 项 集中 ( 而 不 是 仅 在 频 
繁 项 集 的 超 集中 ) 查找 频繁 项 集 的 话 ， 查 找 操作 的 次 数 会 是 项 集 数 目的 数 千 倍 。 
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就 算 没 有 这 个 缩减 过 程 ， 当 包含 所 有 电影 的 组 合 的 规律 被 发 现时 ， 算 法 也 会 退出 计算 过 程 。 
因此 ，Apriori 算法 总 是 会 终止 的 。 


We 


这 次 的 代码 可 能 要 运行 几 分 钟 。 如 果 你 的 硬件 配置 较为 老 上 昌 , 那么 运行 时 间 可 能 
还 会 更 长 。 如 果 在 运行 示例 代码 时 遇 到 问题 ， 可 以 考虑 利用 在 线 云 服务 的 算 力 来 
加 快运 行 速 度 。 关 于 如 何在 云 中 完成 实验 ， 请 参看 附录 。 


4.3.3 提取 关联 规则 


在 Apriori 算法 运行 完成 后 ， 我 们 会 得 到 一 个 频繁 项 集 的 列表 。 虽 然 这些 频 繁 项 集 并 不 是 关 
联 规则 , 但 很 容易 转换 为 关联 规则 。 频 繁 项 集 是 满足 最 小 支持 度 要 求 的 项 的 集合 ， 而 关联 规则 是 
前 提 和 结论 的 组 合 。 二 者 其 实 是 同一 份 数据 的 不 同 表现 形式 。 





























把 项 集中 的 菜 部 电影 作为 结论 , 其 他 电影 作为 前 提 , 即 可 从 频繁 项 集 生成 关联 规 
则 。 关 联 规则 的 形式 会 是 这 样 : 用 户 如 果 推荐 了 前 提 中 的 所 有 电影 ， 那 么 也 会 推 
荐 结论 中 的 电影 。 
把 项 集 内 各 部 电影 作为 结论 ， 其 他 电影 作为 前 提 推 广 到 每 个 项 集中 ， 就 能 生成 很 多 关联 
规则 。 
为 了 将 其 落实 到 代码 中 , 我 们 首先 生成 一 个 列表 , 用 于 保存 每 个 频繁 项 集 的 规则 。 和 迭代 所 发 
现 的 各 种 长 度 的 频繁 项 集 ， 然 后 在 其 中 迭代 项 集中 的 每 一 部 电影 ， 将 它们 分 别 作为 结论 。 


























candidate_rules = [] 
for itemset_ length, itemset_ counts in frequent_ itemsets.items(): 
for itemset in itemset_counts.keys() : 
for conclusion in itemset: 
premise = itemset - set((conclusion,)) 
candidate_rules.append( (premise, conclusion)) 











这 会 返回 相当 多 的 候选 规则 。 可 以 把 列表 中 的 前 几 条 规则 打印 出 来 看 一 下 。 





print (candidate_rules[:5]) 


获取 的 规则 会 展示 在 输出 结果 中 。 


[(frozenset({79}), 258), (Erozenset ({258})，79)， (Erozenset ({50})，64)， 
(Erozenset ({64})，50)， (Erozenset ({127})，181)] 


人 

















二 部 分 则 是 结论 。 








du 





这 些 规则 的 第 一 部 分 ( frozenset ) 是 作为 前 提 的 电影 的 列表 ， 随 后 的 多 
比如 第 一 条 规则 就 是 : 用 户 如 果 推 荐 了 79 号 电影 ， 那 么 也 会 推荐 258 号 电影 。 
接 下 来 , 用 类 似 第 1 章 中 的 方法 计算 每 条 规则 的 置信 和 度 , 并 根据 新 的 数据 格式 做 一 些 必要 的 


调整 。 
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计算 置信 度 要 先 创 建 一 个 字典 ， 其 中 既 保存 前 提 推 出 正确 结论 的 情况 (规则 匹配 ) 出 现 的 次 
数 ， 也 保存 结论 不 符 的 情况 (规则 失 配 ) 出 现 的 次 数 。 然 后 迭代 所 有 评论 和 规则 ， 以 计算 规则 前 
提 是 否 有 效 。 如 果 有 效 ， 那 么 检查 结论 是 否 准确 。 


correct_counts = defaultdict (int) 
incorrect_counts = defaultdict (int) 
for user, reviews in favorable reviews_by_users.items(): 
for candidate _ rule in candidate rules: 
premise, conclusion = candidate rule 
if premise.issubset (reviews): 
if conclusion in reviews: 
correct_counts[candidate_ rule] += 1 
else: 
incorrect_counts[candidate rule] += 1 


用 正确 情况 的 计数 除 以 规则 出 现 的 总 数 就 是 规则 的 置信 度 。 


rule_confidence = {candidate rule: 
(correct_counts[candidate rulel] / 
float (correct_counts[candidate_rule] + 
incorrect_counts[candidate_rule])) 
for candidate rule in candidate rules} 


现在 对 置信 度 字典 排序 ， 然 后 打印 前 5 条 规则 。 


from operator import itemgetter 
sorted_ confidence = sorted(rule confidence.items(), key=itemgetter(1), 
reverse=True) 



































for index in range(5): 
print ("Rule #{0}".format (index + 1)) 
(premise, conclusion) = sorted confidence[index] [0] 
print ("Rule: If a person recommends {0} they will also recommend {1}" 
.format (premise, conclusion)) 
print(" - Confidence: {0:.3f}".formatl( 
rule_confidence[ (premise, conclusion)])) 
Bint(v*) 


打印 输出 的 结果 中 只 显示 电影 DD, 不 如 显示 电影 名 称 直观 。 数 据 集 中 有 一 个 u.items 文件 ， 
这 个 文件 包含 电影 的 名 称 和 与 之 对 应 的 MovieID (以 及 电影 类 型 等 其 他 信息 )。 


可 以 用 pandqas 从 这 个 文件 中 加 载 电影 的 标题 。 文 件 和 类 别 的 更 多 详情 ， 见 数据 集中 的 
README 文件 。 这 个 文件 中 的 数据 是 CSV 格式 的 ， 但 要 注意 其 分 隔 符 是 “1” 符 号 ， 并 且 没 有 
表 头 ， 还 需要 注 明 编码 信息 。 在 README 文件 中 可 以 找到 各 列 的 名 称 。 


movie name_filename = os.path.joinl(dqata_folder，"u.item") 
movie name data = pd.read_ csv(movie name filename, delimiter="|", 
header=None, encoding = "mac-roman") 
movie _ name data.columns = ["MovieID", "Title", "Release Date", 
"Video Release", "IMDB", "<UNK>", 
"Action", "Adventure", "Animation", 
"Children's", "Comedy", "Crime", "Documentary", 
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"Drama", "Fantasy", "Film-Noir", "Horror", 
"Musical", "Mystery", "Romance", "Sci-Fi", 
"Thriller", "War", "Western"] 








因为 我 们 需要 经 常 查 找 电 影 标题 , 所 以 应 该 把 这 个 操作 写成 函数 , 以 避免 重复 编写 操作 的 代 
码 。 我 们 要 创建 这 样 一 个 函数 ， 它 接受 MovieID 为 参数 , 返回 对 应 的 电影 标题 。 代 码 如 下 所 示 。 


def get_movie_name (movie id): 
title object = movie name datalmovie name data[l"MovieID"] == 
movie_id]["Title"] 
title = title _ object.values[0] 
return title 


在 新 的 Jupyter Notebook 输入 框 中 ， 对 之 前 输出 前 几 条 规则 的 代码 做 出 适当 调整 ， 以 
标题 纳入 到 结果 中 来 。 


for index in range(5): 
print ("Rule #{0}".format (index + 1)) 
premise, conclusion = sorted confidence[index] [0] 
premise names = ", ".join(get movie name(idx) for idx in premise) 
conclusion name = get_ movie name (conclusion) 
print ("Rule: If a person recommends {0} they will also recommend{1}" 
.format (premise names, conclusion name)) 












































print(" - Confidence: {0:.3f}".format (rule confidence[ (premise, 
conclusion)])) 
print ( mn ) 
这 样 一 来 就 大 大 改善 了 结果 的 可 读 性 ( 虽然 仍 有 一 些 问题 ， 不 过 先 不 去 管 它们 )。 
Rule #1 


Rule: If a person recommends Shawshank Redemption, The (1994), Silence of 
the Lambs, The (1991), Pulp Fiction (1994), Star Wars (1977), Twelve 
Monkeys (1995) they will also recommend Raiders of the Lost Ark (1981) 

- Confidence: 1.000 


Rule #2 

Rule: If a person recommends Silence of the Lambs, The (1991), Fargo 
(1996), Empire Strikes Back, The (1980), Fugitive, The (1993), Star Wars 
(1977), Pulp Fiction (1994) they will also recommend Twelve Monkeys (1995) 
- Confidence: 1.000 


Rule #3 

Rule: If a person recommends Silence of the Lambs, The (1991), Empire 
Strikes Back, The (1980), Return of the Jedi (1983), Raiders of the Lost 
Ark (1981), Twelve Monkeys (1995) they will also recommend Star Wars (1977) 
- Confidence: 1.000 


Rule #4 

Rule: If a person recommends Shawshank Redemption, The (1994), Silence of 
the Lambs, The (1991), Fargo (1996), Twelve Monkeys (1995), Empire Strikes 
Back, The (1980), Star Wars (1977) they will also recommend Raiders of the 
Lost Ark (1981) 

- Confidence: 1.000 
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Rule #5 

Rule: If a person recommends Shawshank Redemption, The (1994), Toy Story 
(1995), Twelve Monkeys (1995), Empire Strikes Back, The (1980), Fugitive, 
The (1993), Star Wars (1977) they will also recommend Return of the Jedi 
(1983) 

- Confidence: 1.000 


4.3.4 评估 关联 规则 


广义 上 , 可 以 用 与 处 理 分 类 问题 时 相同 的 概念 来 评估 这 里 的 关联 规则 。 用 除 训练 数据 集 以 外 
的 数据 测试 算法 ， 以 评估 发 现 的 关联 规则 在 测试 数据 集中 的 性 能 表现 。 


为 此 , 我 们 需要 计算 测试 数据 集 的 置信 和 度 ， 即 计算 测试 数据 集中 每 条 规则 的 置信 和 度 。 本 例 中 
不 会 采用 正式 的 评估 标准 ， 而 仅 将 检视 这 些 规则 以 从 中 找 出 较 好 的 。 


正式 的 评估 会 包含 分 类 准确 率 ， 即 预测 用 户 对 给 定 电影 给 出 好 评 的 准确 率 。 如 下 所 述 ， 本 例 
浏览 各 条 规则 ， 以 找 出 较 可 靠 的 规则 。 


(1) 首先 ， 提取 测试 数据 集 ， 也 就 是 蚀 除 训练 数据 集 的 全 部 记录 。 我们 (根据 了 D 值 ) 选用 前 
200 名 用 户 作为 训练 数据 集 ， 而 将 其 余 用 户 作 为 测试 数据 集 。 有 了 训练 数据 集 ， 就 可 以 从 数据 集 
中 找 出 各 个 用 户 发 表 的 好 评 。 代 码 如 下 。 


test_dataset = all_ratings[~all1_ratings['UserID'].isin(zange(200))] 

test_favorable = test_dataset [test_dataset["Favorable"]] 

test_favorable by users = dict((k, frozenset (v.values)) for K，V in 
test_favorable.groupby ("UserID") ["MovieID"]) 


(2) 然后 ， 像 之 前 一 样 ， 为 前 提 推 出 正确 结论 的 情况 计数 。 不 过 这 一 步 要 使 用 测试 数据 集 ， 
而 不 是 训练 数据 集 。 代 码 如 下 。 


Correct_counts = defaultdict (int) 
incorrect_counts = defaultdict (int) 
for user, reviews in test_favorable by_ users.items() : 
for candidate rule in candidate rules: 
premise, conclusion = candidate _ rule 
if premise.issubset (reviews): 














湛 























if conclusion in reviews: 
correct_counts[candidate_rule] += 1 
else: 
incorrect_counts[candidate rule] += 1 


(3) 接 下 来 ， 用 之 前 的 计数 计算 每 条 规则 的 置信 和 度 。 代 码 如 下 。 


test_confidence = {candidate rule: 
(correct_counts[candidate_ rulel] / 
float (correct_counts[candidate rulel] + 
incorrect_counts[candidate_rule])) 
for candidate rule in rule_ confidence} 
print (len(test_confidence)) 
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(4) 最 后 ， 打 印 最 佳 关联 规划， 并 输出 电影 的 标题 ， 而 不 是 电影 的 人 D。 


for index in range(10): 
print ("Rule #{0}".format (index + 1)) 
(premise, conclusion) = sorted confidence[index] [0] 
premise names = ", ".join(get_ movie name(idx) for idx in premise) 
conclusion name = get_ movie name (conclusion) 
print ("Rule: If a person recommends {0} they will also recommend" 
"{1}".format (premise_ names, conclusion name)) 














print(" - Train Confidence: {0:.3f}".formatl( 
rule_confidence.get ((premise, conclusion), -1))) 
print(" = Test Confidence: {0;.3f}".,format'\( 
test_confidence.get ((premise, conclusion), -1))) 
print ("") 
现在 就 能 看 出 哪些 规则 最 适用 于 新 数据 了 。 
Rule #1 


Rule: If a person recommends Shawshank Redemption, The (1994), Silence of 
the Lambs, The (1991), Pulp Fiction (1994), Star Wars (1977), Twelve 
Monkeys (1995) they will also recommend Raiders of the Lost Ark (1981) 

- Train Confidence: 1.000 

- Test Confidence: 0.909 


Rule #2 

Rule: If a person recommends Silence of the Lambs, The (1991), Fargo 
(1996), Empire Strikes Back, The (1980), Fugitive, The (1993), Star Wars 
(1977), Pulp Fiction (1994) they will also recommend Twelve Monkeys (1995) 
- Train Confidence: 1.000 

- Test Confidence: 0.609 


Rule #3 

Rule: If a person recommends Silence of the Lambs, The (1991), Empire 
Strikes Back, The (1980), Return of the Jedi (1983), Raiders of the Lost 
Ark (1981), Twelve Monkeys (1995) they will also recommend Star Wars (1977) 
- Train Confidence: 1.000 

- Test Confidence: 0.946 


Rule #4 

Rule: If a person recommends Shawshank Redemption, The (1994), Silence of 
the Lambs, The (1991), Fargo (1996), Twelve Monkeys (1995), Empire Strikes 
Back, The (1980), Star Wars (1977) they will also recommend Raiders of the 
Lost Ark (1981) 

- Train Confidence: 1.000 

- Test Confidence: 0.971 


Rule #5 

Rule: If a person recommends Shawshank Redemption, The (1994), Toy Story 
(1995), Twelve Monkeys (1995), Empire Strikes Back, The (1980), Fugitive, 
The (1993), Star Wars (1977) they will also recommend Return of the Jedi 
(1983) 

- Train Confidence: 1.000 

- Test Confidence: 0.900 








比如 第 2 条 规则 在 训练 数据 集中 的 置信 度 极 高 ， 在 测试 数据 集中 却 只 有 60% 的 准确 率 。 在 
前 10 条 规则 中 ， 其 他 规则 大 多 在 训练 数据 集中 置信 和 度 较 高 。 对 于 推荐 电影 而 言 ， 这 些 规则 就 很 


合适 。 











如 果 查 前 10 条 以 外 的 规则 ,你 就 会 发 现 有 些 规则 在 测试 数据 集中 的 置信 度 是 -1， 
而 置信 度 应 是 0~1 的 值 。 此 时 -1 表示 在 测试 数据 集中 找 不 到 该 条 规则 。 


4.4 本 章 小 结 


在 本 章 中 , 我 们 对 大 量 电影 评论 数据 执行 亲 和 性 分 析 ， 以 找 出 推荐 电影 的 规则 。 这 个 分 析 过 
程 分 为 两 步 。 首 先 用 Apriori 算法 从 数据 中 找 出 频繁 项 集 ， 然 后 由 项 集 生成 关联 规则 。 


本 章 之 所 以 采用 Apriori 算法 ， 是 因为 数据 集 规模 比 之 前 更 大 。 由 于 使 用 第 1 章 中 的 暴力 搜 
索 方 法 会 导致 计算 时 间 呈 指数 级 增长 ,所 以 本 章 要 用 一 种 更 智能 的 方法 。 数 据 挖掘 中 的 惯用 模式 
就 是 如 此 : 对 少量 数据 采用 暴力 方法 ， 而 在 大 量 数据 上 应 用 更 高 级 、 更 智能 的 方法 。 


我 们 用 数据 集 的 一 个 子 集训 练 算 法 ， 找 出 关联 规则 。 然 后 用 其 余数 据 检验 算法 性 能 。 我 们 可 
以 在 之 前 章节 的 基础 上 ,扩展 这 一 概念 , 采用 交叉 验证 方法 更 好 地 评估 所 发 现 的 规则 。 这 样 评估 
规则 质量 的 过 程 更 为 稳定 、 有 效 。 


要 进一步 深入 研究 本 章 的 概念 ， 可 以 从 研究 那些 得 分 很 高 〈 即 获得 许多 推荐 )， 却 因 人 缺乏 足 
够 的 规则 而 不 能 推荐 给 新 用 户 的 电影 人 手 。 怎 样 调 整 才能 让 算法 推荐 这 些 电 影 呢 ? 


到 目前 为 止 , 我 们 用 到 的 数据 集 都 是 按照 特征 的 形式 组 织 的 , 不 过 并 不 是 所 有 数据 集 都 被 预 
定义 成 这 样 的 形式 。 在 下 一 章 中 ， 我 们 会 用 scikit-learn 中 的 转换 器 (第 3 章 中 介绍 过 ) 从 
数据 中 提取 特征 ,还 会 了 解 如 何 实现 我 们 自己 的 转换 器 、 如 何 扩展 已 有 的 转换 器 ， 以 及 可 以 用 转 
换 器 实现 的 其 他 概念 。 



























































第 5 章 
特征 与 scikit-learn 
转换 怖 








迄今 为 止 , 我 们 接触 的 数据 集 都 是 按 特征 描述 的 。 上 一 章 中 的 数据 集 是 以 交易 为 中 心 的 。 不 
究 其 根本 ， 这 只 不 过 是 基于 特征 的 数据 的 不 同 表 现形 式 。 


数据 集 的 种 类 很 多 ,包括 文本 、 图 像 、 声 音 、 电 影 甚 至 现实 世界 中 的 事物 。 大 多 数 数据 挖掘 
算法 依赖 于 数值 特征 或 分 类 特征 。 这 也 就 意味 着 着 ,我 们 要 把 这 些 种 类 的 数据 表示 成 数据 挖 气 算 法 
所 依赖 的 形式 ， 这 种 表示 方法 被 称 为 模型 。 


本 章 将 讨论 提取 数值 特征 与 分 类 特征 的 方法 , 以 及 从 这 些 特征 中 挑选 最 佳 特征 的 方法 。 本 章 
还 会 介绍 特征 提取 的 常见 模式 与 技术 。 选 取 的 模型 是 否 合适 , 会 对 数据 挖 据 的 产 出 产生 决定 性 影 
响 。 这 种 影响 比 选取 分 类 算法 的 影响 更 为 重要 。 


本 章 引 入 的 关键 概念 如 下 : 


口 从 数据 集中 提取 特征 ; 
口 为 数据 创建 模型 ; 
口 创建 新 特征 ; 
口 选取 好 特征 ; 
口 为 自 定义 数据 集 创建 转换 器 。 

































































5.1 ”特征 提取 


特征 提取 是 数据 挖掘 中 最 关键 的 任务 之 一 , 这 步 工 作 的 好 坏 对 结果 的 影响 要 超过 数据 挖 气 算 
法 选取 。 不幸 的 是 ,提取 特征 既 没 有 成 规 可 循 ， 也 没有 捷径 可 走 。 因 而 , 想 要 从 特征 入 手提 升 数 
据 挖掘 的 性 能 就 需要 下 一 番 功 夫 。 对 特征 的 选择 也 会 决定 表示 数据 的 形式 ， 也 就 是 模型 。 
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艺术 在 左 ,科学 在 右 , 模型 创建 的 工作 让 数据 挖掘 更 像 是 一 门 艺 术 。 这 也 是 为 什 
么 许多 数据 挖 握 的 自动 化 方法 在 算法 的 选择 上 发 力 , 而 不 是 关注 模型 创建 。 创建 

Ei 优秀 的 模型 并 不 简单 ， 这 既 需要 敏锐 的 直觉 ， 又 需要 领域 知识 和 数据 挖 气 经 验 ， 
还 需要 不 断 试 错 ， 有 时 还 需要 一 点 运气 。 


5.1.1 用 模型 表述 现实 


至 此 , 本 书 中 的 内 容 多 是 关于 操作 和 矩阵 中 的 值 ， 以 至 于 我 们 快要 忽略 完成 数据 挖掘 任务 的 最 
初 原因 : 影响 现实 中 的 事物 。 并 不 是 所 有 数据 集 都 以 特征 的 形式 组 织 。 数 据 集 包含 的 可 能 是 茶 个 
具体 作者 的 全 部 图 书 ， 可 能 是 1979 年 上 映 的 所 有 电影 的 胶片 ， 也 可 能 是 图 书馆 的 古董 馆藏 。 


我 们 要 在 这 些 数据 集中 执行 数据 挖掘 任 务 。 关 于 图 书 ,我 们 可 能 要 了 解 作 者 作品 的 不 同类 型 ; 
关于 电影 , 我 们 可 能 要 理解 女性 角色 的 塑造 方法 ; 关于 历史 文物 , 我 们 可 能 要 探查 它 来 自 于 哪个 
国家 ( 地 区 )。 这 样 一 来 ， 直 接 把 这 些 原 始 数 据 集 交 由 决策 树 计算 是 不 可 能 的 。 

要 想 用 数据 挖 气 算法 帮助 我 们 解决 这 些 问 题 , 就 要 把 数据 表示 成 特征 的 形式 。 特征 是 一 种 创 
建 模 型 的 方法 , 而 模型 能 把 现实 世界 中 的 事物 近似 地 表现 成 数据 挖掘 算法 可 以 理解 的 形式 。 因 此 ， 
模型 是 现实 世界 某 个 方面 的 简化 版 本 。 举 个 例子 ， 象棋 就 是 古代 战争 ( 游戏 形式 ) 的 简化 模型 。 
















































































i 降低 现实 世界 的 复杂 度 ， 以 构造 一 个 易于 处 理 的 模型 ， 是 特征 提取 的 又 一 优点 。 


想象 一 下 , 我 们 要 向 一 名 不 具备 任何 背景 知识 的 人 提供 多 少 信息 ,才能 恰当 、 准 确 并 且 完 整 
地 描述 一 个 现实 世界 中 的 事物 。 你 可 能 要 描述 尺寸 、 重 量 、 质 地 、 成 分 、 寿 命 、 正 症 、 用 途 和 产 
地 等 。 


由 于 现实 世界 中 的 事物 过 于 复杂 , 超出 了 当前 算法 的 处 理 能 力 , 因此 我 们 可 以 用 简单 的 模型 
来 替代 。 


这 种 简化 过 程 也 让 我 们 更 专注 于 数据 挖掘 的 应 用 目的 。 在 后 面 的 章节 中 , 我 们 还 会 接触 到 聚 
类 (clustering )， 以 及 聚 类 的 重要 应 用 领域 。 如 果 你 输入 随机 的 特征 ,那么 聚 类 结果 也 是 随机 的 。 


几 事 凤 有 两 面 。 尽 管 简化 有 这 么 多 好 处 ,然而 它 可 能 会 丢失 数据 挖掘 可 能 需要 的 细节 ,甚至 
会 抛弃 针对 数据 挖掘 对 象 的 好 指标 。 


把 现实 世界 转换 成 模型 这 样 的 表示 形式 着 实 需 要 一 番 思 考 。 你 往往 要 考虑 运用 数据 挖掘 的 目 
标 是 什么 ， 而 不 是 局 限于 之 前 的 做 法 。 我 们 在 第 3 章 中 ， 以 预测 体育 赛事 中 的 胜 方 为 目标 创建 特 


万 


征 时 ， 仅 靠 一 点 领域 知识 就 找 出 了 新 特征 。 
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特征 并 不 只 有 数值 特征 和 分 类 特征 两 种 -数据 挖 握 算 法 已 经 发 展 到 可 以 直接 处 理 
文本 、 图 形 和 其 他 数据 结构 的 程度 了 。 可 惜 这 样 的 算法 超出 了 本 书 的 范畴 ,， 本 书 
6 主要 还 是 使 用 数值 特征 和 分 类 特征 ,而 你 在 数据 挖 握 生 涯 中 所 遇 到 的 特征 一 般 也 
Adult (成 年 人 ) 数据 集 是 一 个 展示 现实 世界 复杂 度 和 用 特征 建立 模型 的 绝 佳 示 例 ， 这 个 数 
据 集 的 目标 是 预测 年 收入 超过 50 000 美元 的 人 。 











请 访问 http://archive.ics.uci.edu/ml/datasets/Adult 页 面 ， 点 击 Data Folder 链接 。 
把 adult .data 和 aqult.names 下 载 到 数据 文件 夹 下 的 Adult 目录 中 。 


这 个 数据 集 完 成 了 描述 现实 世界 的 复杂 任务 : 用 特征 描述 自然 人 ,以 及 他 们 所 处 的 环境 、 背 
景 和 生活 状态 。 





为 本 章 打 开 一 份 新 Jupyter Notebook ， 设 置 数据 文件 名 ， 然 后 用 pandas 加 载 数据 集 。 


import os 

import pandas as pd 

data_folder = os.path.join(os.path.expanduser ("~"), "Data", "Adult") 
adult_filename = os.path.join(data_folder, "adult.data") 





adult = pd.read csv(adult_filename, header=None, names=[ 


"Age", "Work-Class", "fnlwgt", "Education", 
"Education-Num", "Marital-Status", "Occupation", 
"Relationship", "Race", "Sex", "Capital-gain", 
"Capital-loss", "Hours-per-week", "Native-Country", 


"Earnings-Raw"]) 
这 部 分 代码 与 前 一 章 中 的 大 体 相同 。 


不 想 手 动 键入 列 名 ? 不 要 忘 了 你 可 以 从 Packt 出 版 社 网 站 下 载 代码 ,也 可 以 从 专 
6 为 本 书 维护 的 GitHub 仓库 下 载 代 码 : https://github.com/PacktPublishing/Learning- 
Data-Mining-with-Python-Second-Edition。 
Adult 文件 的 末尾 有 两 个 空 行 。pandas 默认 倒数 第 二 行 是 有 效 的 空 行 。 你 可 以 通过 移 除 任 
何 包含 无 效 数 值 的 行 ， 来 去 掉 空 行 ( inplace 意 为 操作 直接 影响 当前 的 pataFrame， 而 不 是 重 
新 创建 一 个 新 的 )。 


adult.dropna (how='all', inplace=True) 


访问 adult .columns， 查 看 数据 集中 的 各 个 特征 。 


adult .columns 


其 结果 展示 了 各 个 特征 的 名 称 ， 这 些 名 称 存储 在 pandas 的 一 个 Index 对 象 中 。 
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Index(['Age', 'Work-Class', 'fnlwgt', 'Education', 
'Education-Num', 'Marital-Status', 'Occupation', 'Relationship', 
'Race', 'Sex', 'Capital-gain', 'Capital-loss', 'Hours-per-week', 
'Native-Country', 'Earnings-Raw'], dtype='object') 


5.1.2 ”常见 的 特征 模式 


创建 模型 的 方法 多 如 牛 毛 , 不 过 有 一 些 常 见 的 模式 适用 于 不 同 的 学 科 。 尽 管 如 此 ,提取 合适 
的 特征 仍 是 一 个 坏 手 的 问题 , 特征 与 最 终结 果 的 关联 关系 也 值得 考量 。 常言 道 : 不 可 以 封面 取 书 。 
同 理 ， 如 果 你 对 书 中 的 内 容 感 兴趣 ,那么 纠结 书 的 尺寸 就 没什么 意义 。 


























研究 现实 世界 中 的 事物 时 ， 通 常 可 以 关注 以 下 这 样 的 物理 属性 ， 并 将 其 作为 特征 来 使 用 : 


口 空间 属性 ， 比 如 物体 的 长 度 、 宽 度 和 高 度 ; 
口 物体 的 重量 、 密 度 ; 

口 物体 本 身 或 组 成 部 分 的 寿命 ; 

口 物体 的 类 型 ; 

口 物体 的 品质 。 


根据 使 用 情况 和 历史 ， 还 可 以 推出 其 他 特征 : 
口 物品 的 生产 方 、 出 版 方 或 创造 者 ; 

口 物品 的 制造 年 份 。 

还 有 可 以 描述 数据 集 组 成 的 特征 : 
口 给 定子 成 分 出 现 的 频率 ， 比 如 书 中 某 单词 出 现 的 频率 ; 
口 子 成 分 的 数量 和 (或 ) 不 同 子 成 分 的 数量 ; 

口 子 成 分 的 平均 大 小 ， 比 如 平均 句 长 。 
































我 们 可 以 对 有 序 特征 执行 排名 、 排 序 和 按 相近 值 分 组 等 操作 。 如 上 一 章 所 示 ，, 这 样 的 特征 可 
以 是 数值 特征 和 分 类 特征 。 






































数值 特征 通常 是 有 序 的 。 比 如 爱丽 丝 、 鲤 勃 、 查 理 3 个 人 的 身高 分 别 是 1.5 米 、1.6 米 和 1.7 
米 。 那 么 就 可 以 说 相 较 于 查理 ， 爱 丽 丝 与 鲍 勃 在 身高 上 更 相近 。 





在 上 一 节 加 载 的 Adult 数据 集中 就 有 连续 且 有 序 的 特征 。 比 如 Hours-per-week 特征 表示 
每 周 工作 时 长 。 计 算 均 值 、 标 准 差 、 最 小 值 和 最 大 值 等 操作 在 这 样 的 特征 上 才 有 意义 。pandas 
中 有 一 个 函数 可 以 给 出 一 些 这 样 的 基本 统计 值 。 











adult["Hours-per-week"] .describe() 


其 结果 显示 了 特征 的 简单 情况 。 
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count 32561.000000 
mean 40.437456 

std 12.347429 

min 1.000000 

25% 40.000000 

50% 40.000000 

75% 45.000000 

max 99.000000 
dtype: float64 


但 是 对 于 其 他 特征 来 说 , 这些 操作 就 不 见得 有 意义 了 。 例如 ,对 这 些 人 的 受 教育 程度 求 和 就 
没什么 用 。 与 之 相反 ， 计 算 每 位 消费 者 订单 数目 之 和 对 在 线 商店 就 很 有 用 。 


除了 数值 特征 以 外 , 还 有 别 的 有 序 特 征 。Adult 数据 集中 的 gaucation 特征 就 是 一 例 。 学士 
学 位 所 代表 的 受 教 育 程度 比 高 中 毕业 要 高 ， 而 高 中 毕业 所 代表 的 受 教育 程度 又 比 高 中 振 业 要 高 。 
计算 这 些 值 的 均值 是 无 意义 的 , 不 过 我 们 可 以 通过 取 中 位 数 来 得 出 一 个 近似 值 。 这 个 数据 集 提 供 
了 一 个 好 用 的 寺 征 Education-Num, 其 值 基 本 上 与 受 教育 的 年 数 相等 。 这 样 一 来 ， 计算 这 个 特 
征 的 中 位 数 轻而易举 。 


adult["Education-Num"] .median() 


这 行 代码 的 结果 是 10， 即 完成 高 一 学 年 的 学 习 。 如 果 没 有 这 个 特征 ， 我 们 也 可 以 给 受 教育 
程度 排序 ， 然 后 计算 其 中 位 数 。 


有 序 特征 也 可 以 是 分 类 特征 。 比 如 , 一 颗 球 可 以 是 网 球 、 板 球 、 足 球 或 者 任何 其 他 类 型 的 球 。 
分 类 特征 也 被 称 为 名 目 特 征 (nominal feature )。 对 于 名 目 特 征 而 言 ， 值 只 有 两 种 : 要 么 相同 ， 要 
么 不 同 。 尽 管 我 们 可 以 按 尺 寸 或 重量 为 球 排 名 ， 却 不 能 用 分 类 来 对 排名 进行 比较 。 网 球 既 不 是 
板 球 ， 也 不 是 足球 。 虽 然 我 们 可 以 说 网 球 (在 尺寸 上 ) 更 像 板 球 , 但 仅 靠 分 类 不 能 体现 出 这 种 区 
别 一 一 球 要 么 相同 ， 要 么 不 同 。 

我 们 可 以 像 第 3 章 中 那样 ， 用 独 热 编码 把 分 类 特征 转换 成 数值 特征 。 针 对 前 面 提 到 的 球 的 
分 类 ,创建 3 个 新 的 二 值 特征 : 是 否 是 网 球 、 是 否 是 板 球 和 是 否 是 足球 。 独 热 编 码 的 使 用 过 程 同 
第 3 章 。 网 球 的 向 量 是 [1，0，0] ， 板 球 的 向 量 是 [0，1，0] ， 足 球 的 向 量 则 是 [0，0，1]。 
这 些 值 虽然 是 二 值 特征 , 但 在 很 多 算法 中 可 以 作为 连续 特征 使 用 。 一 个 关键 的 原因 就 是 它们 可 以 
直接 进行 数值 比较 ( 比如 计算 样本 间 的 距离 )。 


Adult 数据 集中 有 多 个 分 类 特征 ， 这 里 以 work-class (工作 类 型 ) 为 例 。 虽然 有 些 值 可 以 
体现 出 级 别 高 低 ( 比如 有 工作 的 人 收入 就 比 失 业 的 人 高 )， 但 并 不 是 所 有 值 都 是 如 此 。 壁 如 任职 
于 州 政府 的 人 ， 收 入 就 不 见得 有 任职 于 私营 企业 的 人 高 。 

用 unigque() 函数 就 可 以 在 数据 集中 查看 该 特征 的 唯一 值 。 


adult ["Work-Class"].unicue() 


其 结果 会 显示 该 列 中 的 唯一 值 。 
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array([' State-gov', ' Self-emp-not-inc', ' Private', ' Federal-gov', 
' Local-gov', ' ?', ' Self-emp-inc', ' Without-pay', 
' Never-worked', nan], dtype=object) 


尽管 数据 中 缺失 了 一 些 值 ,但 并 不 影响 本 例 中 的 计算 。 你 还 可 以 用 aault .value_counts() 
函数 看 一 下 每 个 值 出 现 的 频率 。 


对 于 这 个 新 数据 集 而 言 ， 还 有 一 个 相当 实用 的 处 理 步骤, 那 就 是 可 视 化 。 下 面 的 代码 会 创建 
一 张 蜂 群 图 (swarm plot ) "， 该 图 将 展示 受 教育 程度 和 工作 时 长 与 最 终 分 类 的 关系 ( 两 者 以 不 同 
颜色 区 分 )， 如 图 5-1 所 示 。 


smatplotlib inline 

import seaborn as sns 

from matplotlib import pyplot as plt 

plt.figure (figsize=(12, 9)) 

sns.swarmplot (x="Education-Num", y="Hours-per-week", hue="Earnings-Raw", 
data=adult[::50], size=12) 
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图 5-1 





@@ seaborn.swarmplot () 创 建 的 散 点 图 中 的 点 不 会 重奏 ， 这 种 图 也 被 称 作 “beeswarm”。 一 一 译 者 注 
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上 面 代码 中 的 aault 0::50] 以 50 行为 间隔 在 数据 集中 采样 。 这 里 没有 直接 使 用 aault 是 
为 了 避免 图 表 因 展现 过 多 样本 而 难以 辨识 。 


数值 特征 同样 也 可 以 被 转换 为 分 类 特征 ,这样 的 过 程 被 称 为 离散 化 。 第 1 章 就 介绍 了 这 种 方 
法 。 我 们 判定 身高 1.7 米 以 上 的 人 为 高 ,1.7 米 以 下 的 人 为 矮 , 这 样 一 来 ,数值 特征 就 变 成 了 分 类 
特征 (虽然 仍 是 有 序 的 )。 然 而 ， 这 样 处 理 也 导致 数据 中 的 一 些 信息 丢失 了 。 比 如 ， 如 果 两 个 人 
的 身高 分 别 是 1.69 米 和 1.71 米 ， 那 么 他 们 不 但 会 被 分 为 两 类 ， 而 且 会 被 认为 是 截然 不 同 的 。 相 
反 , 一 名 身高 1.2 米 的 人 却 会 与 身高 1.69 米 的 人 归 为 同类 ! 离散 化 会 导致 数据 中 的 细节 丢失 ， 这 
就 是 离散 化 的 副作用 。 在 创建 模型 时 ， 也 要 把 这 个 问题 纳入 考量 。 


我 们 可 以 在 Adult 数据 集中 创建 一 个 名 为 LongHours 的 特征 ， 用 于 指示 周 工作 时 长 是 否 超 
过 40 小 时 。 这 就 把 连续 特征 Hours-per-week 转换 成 了 分 类 特征 : 如 果 小 时 数 大 于 40 则 为 
True， 反 之 则 为 False。 


adult["LongHours"] = adult["Hours-per-week"] > 40 








































































































5.1.3 创建 好 的 特征 


建 模 会 简化 信息 的 处 理 过 程 , 这 是 没有 一 种 数据 挖掘 方法 能 普遍 用 于 各 种 数据 集 的 关键 原因 
之 一 。 数 据 挖掘 的 行家 里 手 会 去 了 解数 据 挖掘 应 用 场景 中 的 领域 知识 ,分 析 问 题 ， 了 解 所 掌握 数 
据 的 情况 ， 然 后 创建 解决 问题 的 模型 。 


例如 , 一 个 人 的 身高 特征 也 许 能 体现 他 打 篮 球 的 能 力 , 却 不 太 可 能 体现 其 学 业 上 的 表现 。 
此 ， 如 果 要 预测 一 个 人 的 成 绩 ， 不 必 测 量 每 个 人 的 身高 。 


这 就 是 为 什么 说 数据 挖掘 比 科 学 更 像 艺术 。 提 取 优秀 的 特征 不 仅 不 容易 , 还 是 当下 数据 挖掘 
研究 一 直 关 注 的 重要 课题 。 虽 然 选 择 合 适 的 分 类 算法 可 以 提升 数据 挖掘 应 用 的 性 能 , 但 提取 合适 
的 特征 效果 往往 更 好 。 

在 所 有 数据 挖掘 应 用 中 , 都 应 该 先 对 要 达成 的 目标 有 一 个 大 体 上 的 认识 ,然后 再 


OD 去 设计 实现 目标 的 方法 。 这 是 因为 ， 时间 挖掘 的 目标 决定 了 “选取 什么 类 型 的 特 
征 ”“ 采 用 什么 样 的 算法 ”和 “对 最 终结 果 有 怎样 的 预期 ”等 问题 。 
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在 完成 初始 建 模 工作 后 , 通常 有 许多 特征 可 供 挑 选 ， 不 过 我 们 只 会 选择 其 中 的 一 小 部 分 。 这 
样 做 的 可 能 的 原因 有 很 多 。 
口 降低 复杂 度 。 许 多 数据 挖掘 算法 运行 所 需 的 时 间 和 资源 会 随 着 特征 数量 的 增长 而 大 幅 增 
加 。 减 少 特征 的 数量 是 加 快 算法 运行 速度 、 减 少 算法 所 需 资 源 的 绝 佳 手 段 。 
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口 降低 噪声 。 增 加 额外 的 特征 并 不 总 能 带 来 性 能 提升 。 额 外 的 特征 也 会 干扰 算法 ,使 其 在 








训练 数据 集中 找 出 没有 实际 意义 的 相关 性 和 规则 。 无 论 数据 集 规模 如 何 
常见 。 只 选取 合适 的 特征 可 以 有 效 减少 无 意义 的 随机 相关 性 。 
口 创建 人 类 可 读 的 模型 。 虽 然 数 据 挖掘 算法 很 容易 借助 有 成 千 上 万 个 特征 











， 这 种 现象 都 很 


的 模型 计算 出 问 


题 的 答案 ， 但 这 样 的 结果 让 人 难以 理解 。 因 此 ， 为 保证 良好 的 可 读 性 ， 就 要 减少 特征 的 





数量 ， 创 建 能 让 人 类 理解 的 模型 。 


尽管 有 一 些 分 类 算法 能 处 理 前 文中 那样 有 问题 的 数据 , 然而 修正 数据 并 选取 
集 的 特征 仍 对 算法 有 所 助 益 。 











能 有 效 描述 数据 


我 们 可 以 进行 一 些 基 本 的 测试 ， 比 如 至 少 确保 特征 的 值 完全 相同 。 如 果 特 征 的 值 完全 相同 ， 





它 就 不 会 给 我 们 执行 的 数据 控 握 工作 提供 额外 的 信息 。 


例如 ，scikit-learn 中 的 varianceThreshold 转换 器 就 可 以 移 除 特征 





值 方差 低 于 最 低 


要 求 的 特征 。 我 们 首先 用 NumPy 创建 一 个 简单 的 矩阵 来 展示 这 个 转换 器 的 用 法 。 





import numpy as np 
xX = np.arange(30) .reshape((10, 3)) 


其 结果 是 一 个 3 列 10 行 的 和 矩阵， 代表 一 个 有 着 10 个 样本 、3 个 特征 的 数据 
素 是 0~29 的 数字 。 


array ([ 








OWO 
心 
Oo UN 


于 人 3 
15.. "16; 
8. 197. 2 
2 Dy 2 
2 
人 


然后 把 整个 第 2 列 ， 也 就 是 第 2 个 特征 的 值 设 为 1。 
Xl I 
这 样 第 1 列 和 第 3 列 的 方差 就 很 大 ， 而 第 2 列 的 方差 则 是 0。 


array ([ 


] 
] 
] 
SU 于 
1 
1 




















。 矩阵 中 的 元 
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接 下 来 ， 创 建 VarianceThreshold 转换 人 ， 然 后 将 其 应 用 到 数据 集 上 。 


from sklearn.feature_ selection import VarianceThreshold 
vt = VarianceThreshold() 
Xt = vt.fit_ transform(X) 


这 样 一 来 ,结果 中 的 xt 里 就 没有 第 2 列 了 。 





array([[ 0, 2], 
7 5 
6, 8], 
> a i i 
二 这 
ty 
T8220 
3 
六 相让 
27 7» 7229:1:].) 





打印 vt .variances_ 属 性 即 可 看 到 各 列 的 方差 。 

print (vt .variances_) 

结果 显示 ， 第 1 列 和 第 3 列 包 含 了 一 定 的 信息 量 ， 而 第 2 列 方差 为 0。 

array([ 74.25，0.，74.25]) 

第 一 次 查看 数据 时 ,最 好 运行 一 下 这 个 简单 明了 的 测试 。 方差 为 0 的 特征 不 仅 对 数据 挖掘 应 
用 没有 任何 价值 ， 还 会 拖 慢 算法 运行 速度 ， 降 低 算法 性 能 。 

















选取 最 佳 单个 特征 

如 果 特 征 数量 很 多 , 那么 从 中 找 出 特征 的 最 佳 子 集 就 成 了 一 个 难题 。 这 个 问题 很 多 时 候 也 跟 
解决 数据 挖掘 问题 本 身 密切 相关 。 就 像 第 4 章 中 那样 ， 随 着 特征 数量 的 增加 ， 基 于 子 集 的 任务 复 
杂 度 呈 指 数 级 增长 。 寻 找 特征 的 最 佳 子 集 也 是 如 此 ， 它 花费 的 时 间 也 是 呈 指 数 级 增加 的 。 


我 们 可 以 采取 一 种 基本 的 变通 方案 来 解决 这 个 问题 , 那 就 是 找 出 总 体 效 果 好 的 特征 子 集 ， 而 
不 是 找 出 表现 好 的 特征 个 体 。 这 种 单 变量 的 选取 方法 自身 就 能 给 出 可 以 指示 特征 性 能 的 分 数 。 分 
类 问题 通常 会 采用 这 种 做 法 以 大 体 上 衡量 变量 和 目标 类 之 间 的 联系 。 

scikit-learn 包 中 有 很 多 能 选择 单 变 量 特征 的 转换 器 ， 包 括 返 回 前 位 最 佳 特征 的 
SelectKBest 转换 器 和 返回 前 R% 特 征 的 SelectPercentile 转换 器 ,两 个 转换 器 都 支持 多 种 
计算 特征 质量 的 方法 。 

计算 单个 特征 与 类 别 值 的 相关 性 的 方法 有 不 少 ， 卡 方 (x ) 检验 就 是 一 种 常见 的 方法 。 其 他 
方法 还 有 互信 息 和 信息 炉 。 
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tir 


用 Adult 数据 集 来 实践 一 下 单 特征 的 测试 。 首 先 ， 从 pandas 的 DataFrame 中 提取 数据 集 
和 类 别 值 。 这 里 用 特征 来 选择 数据 。 


xX = adult[["Age", "Education-Num", "Capital-gain", "Capital-loss", 
"Hours-per-week"]] .values 


接 下 来 创建 一 个 目标 类 的 数组 ， 其 中 Earnings-Raw( 税 前 收入 ) 的 值 大 于 50 000 美元 则 
类 别 值 为 True， 反 之 为 False。 代 码 如 下 。 


y = (adult["Earnings-Raw"] == ' >50K') .values 








接 下 来 用 chi2 () 函数 和 selectKBest 转换 器 创建 一 个 我 们 自己 的 转换 器 。 


from sklearn.feature_ selection import SelectKBest 

from sklearn.feature_ selection import chi2 

transformer = SelectKBest (score_ func=chi2, k=3) 

运行 转换 带 上 的 fit_transform() 方 法 ,在 当前 数据 集 上 训练 转换 器 并 执行 转换 。 然 后 我 
们 就 会 得 到 一 份 新 的 数据 集 ， 其 中 只 选取 了 3 个 最 佳 特征 。 代 码 如 下 。 


Xt_chi2 = transformer.fit transform(X，Y) 





返回 的 矩阵 中 只 有 3 个 特征 。 我 们 也 可 以 列 出 各 列 的 评分 ， 以 便于 了 解 使 用 了 哪些 特征 。 
代码 如 下 。 


print (transformer.scores_ ) 
打印 出 的 结果 给 出 了 各 列 的 评分 。 


[ 8.60061182e+03 2.40142178e+03 8.21924671e+07 
1.37214589e+066.47640900e+03] 











最 高 评分 出 现在 第 1 列 、 第 3 列 和 第 4 列 , 分 别 对 应 特征 Age ( 年龄) capital-Gain( 资 
本 收入 ) 和 capital-Loss (资本 损失 )。 根 据 单 变量 特征 选取 方法 ， 这 几 个 特征 就 是 选 出 的 最 
佳 特征 。 














如 果 你 需要 更 多 关于 Adult 数据 集中 各 个 特征 的 信息 ， 请 参看 数据 集 附带 的 
adult .names 文件 以 及 其 引用 的 学 术 论 文 。 


我 们 也 可 以 计算 其 他 能 指示 相关 性 的 指标 ,比如 皮尔 逊 “ 相 关系 数 ( PCC, Pearson’s correlation 
coefficient )“。 科学 计算 库 SciPy 就 实现 了 相关 系数 的 计算 方法 ( scikit-learn 就 是 基于 此 库 构 
建 的 )。 





GD 卡尔 . 皮尔 逊 (Karl Pearson，1857 一 1936 )， 英 国 统计 学 家 。 创 立 并 发 展 了 和 矩 佑 计 和 卡 方 检验 等 重要 的 统计 学 

理论 。 一 一 译 者 注 

@ 也 称 作 皮尔 逊 积 矩 相关 系数 (PPMCC，Pearson product-moment correlation coefficient )。 这 个 系数 反映 随机 变量 的 
线性 相关 程度 。 一 一 译 者 注 
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如 果 你 已 经 安装 好 了 scikit-learn, 那么 SciPy 就 也 安装 好 了 。 运行 本 例 无 须 
另行 安装 更 多 的 东西 。 


首先 ， 从 SciPy 中 导入 pearsonr () 函数 。 

from scipy.stats import pearsonr 

上 面 的 这 个 函数 可 以 满足 scikit-learn 单 变 量 转换 器 的 接口 需求 。 这 个 函数 接受 两 个 数 
组 参数 ( 本 例 中 是 x 和 y )， 并 返回 两 个 数组 。 返 回 的 两 个 数组 分 别 是 各 个 特征 的 评分 和 对 应 的 


p 值 (p-value )。 因 为 前 面 用 过 的 chi2() 函数 只 使 用 了 必要 的 接口 ， 所 以 它 可 以 直接 传 给 
SelectKBest 使 用 。 














SciPy 中 的 pearsonr () 困 数 接受 两 个 数组 参数 。 但 是 ， 由 于 它 要 求 传 人 的 x 数组 是 一 维 数 
组 ， 因 而 我 们 要 把 函数 包装 起 来 ， 使 其 能 接受 现 有 的 多 变量 数组 参数 。 代 码 如 下 。 


def multivariate pearsonr (xX, y): 

scores, pvalues = [], [] 

for column in range (xX.shapel[1]): 
# 只 计算 该 列 的 皮尔 进 相关 系数 
Cur_score, cur_p = pearsonr(X[:,column], y) 
# 记录 评分 和 P 值 
scores.append(abs (cur_score)) 
pvalues .append (cur_p) 

return (np.array (scores), np.array (pvalues)) 





皮尔 逊 相 关系 数 的 取 值 范围 在 -1 和 1 之 间 。 如 果 值 为 1, 则 表明 两 个 变量 线性 相 
关 ; 如 果 为 -1， 则 两 个 变量 线性 负 相 关 。 也 就 是 说 ， 如 果 一 个 变量 的 相关 系数 

(外 高 ， 那 么 另 一 变量 的 相关 系数 就 低 ， 反 之 亦 然 。 相 关系 数 趋 近 1 和 -1 的 特征 都 
是 值得 选取 的 。 鉴 于 此 , 我 们 在 评分 数组 中 存储 的 是 相关 系数 的 绝对 值 ， 而 不 是 
原始 的 带 符号 的 值 。 

现在 可 以 像 前 面 那样 ， 用 转换 器 类 计算 皮尔 逊 相关 系数 ， 为 特征 排行 。 

transformer = SelectKBest (score_ func=multivariate pearsonr, k=3) 


Xt_pearson = transformer.fit transform(XxX, y) 
print (transformer.scores, ) 














代码 返回 了 不 同 的 特征 子 集 ， 即 选取 了 第 1 列 、 第 2 列 和 第 5 列 ， 分别 对 应 Age ( 年 龄 )、 
Education ( 受 教育 程度 )、Hours-per-week ( 周 工作 时 长 )。 结果 表明 ,最 佳 特征 的 选取 没有 
确定 的 答案 ， 而 是 取决 于 特征 的 衡量 标准 和 人 处理 方法 。 


























在 分 类 器 中 使 用 这 些 特征 ， 以 观察 哪些 特征 的 效果 更 好 。 此 时 要 注意 , 分 类 带 的 结果 只 能 指 


示 特 征 子 集 在 特定 的 分 类 器 和 (或 ) 特征 组 合 上 表现 好 。 在 数据 挖掘 领域 ,几乎 没有 任何 一 种 方 
法 能 保证 在 任何 情况 下 都 优 于 其 他 方法 。 代 码 如 下 。 
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from sklearn.tree import DecisionTreeClassifier 

from sklearn.cross_validation import cross_val_score 

clf = DecisionTreeClassifier(random state=14) 

scores_chi2 = cross_val_ scorel(clf, Xt_ chi2, y, scoring='accuracy') 
scores_pearson = cross val_ score(clf, Xt_ pearson, y, scoring='accuracy') 


print ("Chi2 score: {:.3f}".format (scores_chi2.mean())) 
print ("Pearson score: {:.3f}".format (scores_pearson.mean())) 


卡 方 检验 方法 的 分 数 是 0.83 ， 而 皮尔 逊 相关 系数 方法 的 分 数 要 低 一 些 , 是 0.77。 对 于 本 例 的 
特征 组 合 而 言 ， 卡 方 检验 方法 更 胜 一 筹 。 


要 记得 本 例 数据 挖掘 任务 的 目标 是 预测 收入 。 在 找到 合适 的 特征 组 合并 选取 最 佳 特 征 后 , 我 
们 仅 用 了 自然 人 的 3 个 特征 就 达到 了 83% 的 准确 率 。 
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有 的 时 候 只 从 现 有 特征 中 选取 还 不 够 ， 我 们 还 可 以 用 其 他 方式 从 现 有 特征 中 创建 新 的 特征 。 
前 面 提 到 过 的 独 热 编码 就 是 一 个 创建 特征 的 实例 。 我 们 要 创建 它 是 否 A、 它 是 否 B、 它 是 否 C 三 个 
新 特征 ， 而 不 是 有 A、B、C 三 个 可 能 取 值 的 分 类 特征 。 


创建 新 特征 乍 看 并 非 必 要 ， 其 收益 也 不 是 一 目 了 然 , 毕 竞 我 们 只 是 利用 数据 集中 原本 就 存在 
的 信息 。 然 而 如 果 特 征 相关 性 较 强 或 存在 元 余 ,就 会 干扰 某 些 算法 的 计算 。 鉴 于 此 ,数据 挖 气 领 
域 中 产生 了 许多 从 已 有 特征 中 创建 新 特征 的 方法 。 


这 次 我 们 要 加 载 新 的 数据 集 ， 因 此 要 创建 一 个 新 Jupyter Notebook 实例 。 从 http://archive.ics. 
uci.edu/ml/datasets/Internet+Advertisements 下 载 Advertisements (广告 ) 数据 集 ， 并 保存 到 你 的 
数据 文件 夹 中 。 


接 下 来 用 pandas 加 载 数 据 


import os 

import numpy as np 

import pandas as pd 

data_folder = os.path.join(os.path.expanduser ("~"), "Da 
data_filename = os.path.join(data_folder, "Ads", "ad.da 


这 个 数据 集 有 很 多 会 打 断 加 载 过 程 的 问题 。 尝 试用 pa .read_csv 加 载 数 据 集 就 能 看 到 这 些 
问题 。 第 一 个 问题 是 , 虽然 前 几 个 特征 是 数值 型 的 , 但 pandas 把 它们 加 载 成 了 字符 串 。 我 们 需 
要 编写 一 个 转换 函数 来 解决 这 个 问题 ， 这 个 函数 在 可 能 的 情况 下 会 把 字符 串 转 换 成 数值 ， 否 则 ， 
会 将 其 转换 为 NaN (notanumber， 非 数值 ),。 后 者 是 特殊 的 无 效 值 ， 表示 一 个 值 不 能 按 数 值 解析 ， 
类 似 于 其 他 编程 语言 中 的 none 或 null。 


这 个 数据 集 的 另 一 个 问题 是 缺失 了 一 些 值 。 在 数据 集中 , 这 些 值 由 字符 串 ? 代 替 。 幸 运 的 是 ， 
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首先 还 是 要 设置 好 数据 的 文件 名 。 
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问号 标记 不 能 转换 成 浮 点 数 ， 也 就 是 说 我 们 可 以 用 上 面 的 做 法 ， 把 问号 标记 转换 成 NaN。 在 后 续 
章节 里 ， 我 们 会 介绍 更 多 类 似 的 处 理 缺 失 值 的 方法 。 


下 面 创建 一 个 函数 ， 执 行 转换 过 程 。 该 函数 把 数字 转换 为 浮 点 数 ; 如 果 转 换 失败 ， 它 就 会 返 
回 NumPy 中 的 特殊 值 NaN。NaN 也 是 作为 浮 点 数 存 储 的 。 


def convert_mnumber (x): 
tv 
return float (x) 
except ValueError: 
return np.nan 





创建 一 个 字典 用 于 转换 过 程 ， 并 把 所 有 的 特征 转换 为 浮 点 数 。 


converters = {} 
for i in range(1558): 
converters[i] = convert_ number 


同样 , 也 要 设置 把 最 后 一 列 ( 列 索 引 1558 ) 中 的 类 别 值 转换 成 二 值 特征 。 在 Adult 数 据 集 中 ， 
我 们 就 创建 过 二 值 特征 。 不 过 针对 这 次 的 数据 集 ， 我 们 在 加 载 时 就 进行 转换 。 


converters[1558] = lambda x: 1 if x.strip() == "ad." else 0 


现在 就 可 以 用 read_csv 加 载 数据 集 了 。 把 刚才 我 们 创建 的 转换 函数 传 给 converters 参 
数 ， 让 pandas 执行 转换 。 


ads = pd.read csv(data_ filename, header=None, converters=converters) 


这 会 产生 一 个 相当 大 的 数据 集 ， 有 1559 个 特征 和 3000 多 行 数据 。 在 新 的 输入 框 中 键入 
aas .head() 即 可 展示 前 5 行 的 部 分 特征 值 ( 见 图 5-2 )。 





ads.head() 


lo fl J: ls le ls je |? le fo | [25e|1s50|150 |1552|155 |1554 |1555 |1550|1557|1558 









0|125.0 |125.0 |1.0000 11.0 |0.0 10.0 10.010.0 10.010.0 |.…|10.0 10.0 |0.0 10.0 10.0 |0.0 10.0 |0.0 |0.0 
1|57.0 |1468.0 |8.2105 |1.0 10.0 10.0 10.0 10.010.0 10.0 1.…10.0 10.0 10.0 10.0 10.0 10.0 10.0 10.0 |0.0 


3|60.0 |468.0 |7.8000 |1.010.010.010.010.010.010.0|…|0.0 10.0 10.0 |0.0 |0.0 |0.0 |0.0 10.0 |0.0 





>| 





4|60.0 |468.0 |7.8000 11.010.010.0 10.010.010.010.0|…|0.0 |0.0 |0.0 |0.0 10.0 |0.0 |0.0 |0.0 |0.0 


























5 rows x 1559 columns 








5-2 


这 份 数据 集 描述 网 站 上 的 图 像 ， 可 以 用 来 判定 图 像 是 否 为 广告 。 





数据 集 的 表 头 不 能 体现 各 个 特征 的 含义 。 除 了 ad .data， 数 据 集 还 附带 了 两 个 提供 更 多 信 
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息 的 文件 : ad .DOCUMENTATION 和 ad.names。 前 3 列 特 征 分 别 是 高 度 、 宽 度 和 宽 高 比 。 最 后 一 


列 特征 表示 图 像 是 否 为 广告 ， 如 果 是 广告 则 值 为 1， 反 之 则 值 为 0。 


其 他 特征 中 的 1 表示 URL、alt 属 性 文本 或 图 像 标 题 中 出 现 了 特定 的 词 。 比 如 ，sponsor( 赞 
助 商 ) 这 样 的 词 就 可 以 用 来 判定 图 像 是 否 为 广告 。 其中, 许多 特征 是 互相 重 芭 的， 因为 有 些 特征 
就 是 其 他 特征 的 组 合 形式 。 因 此 ， 这 个 数据 集中 信息 的 元 余 成 分 占 比 很 大 。 

用 pangdas 加 载 过 数据 集 后 , 就 可 以 提取 分 类 算法 所 需 的 x 和 y 数据 。x 矩阵 是 DataFrame 
中 除 最 后 一 列 以 外 的 全 部 列 ; y 数组 是 最 后 一 列 ， 即 第 1558 列 特征 。 根 据 本 章 内 容 需 要 ， 在 提 
取 数 据 之 前 要 丢弃 所 有 的 NaN 值 以 简化 数据 集 。 代 码 如 下 。 


ads.dropna (inplace=True) 
xX = ads.drop(1558, axis=1) .values 
y= ds8[1558] 


上 述 代码 会 丢弃 1000 行 以 上 的 数据 ， 其 中 不 乏 有 助 于 数据 挖 气 实 践 的 好 数据 ， 不 过 这 对 于 
本 次 实践 而 言 是 可 以 接受 的 。 但 在 现实 世界 的 应 用 场景 中 ， 人 们 不 会 丢弃 可 以 补救 的 数据 ， 而 会 
用 插值 或 替换 的 方法 填充 NaN 值 所 占 的 部 分 。 比 如 你 可 以 用 列 均 值 代替 任意 缺失 值 。 


5.4 主 成 分 分 析 
某 些 数据 集中 的 特征 之 间 相关 性 较 强 。 例 如 单 档 卡丁车 的 速度 和 油耗 就 是 两 个 强 关 联 的 









































































































































特征 。 虽 然 在 某 些 应 用 场景 下 事物 间 的 这 些 关联 非常 有 帮助 , 但 数据 挖掘 算法 通常 不 需要 和 宛 余 的 
信息 。 





Advertisements (广告 ) 数据 集中 就 有 强 关 联 的 特征 ， 因 为 alt 属性 文本 和 图 像 标题 会 共用 很 
多 关键 词 。 


主 成 分 分 析 (PCA ，principal component analysis ) 算法 可 以 用 于 找 出 用 更 少 的 信息 描述 数据 
集 的 特征 组 合 。 算 法 的 目标 是 找 出 主 成 分 ( principal component )。 主 成 分 是 非 相关 的 特征 。 主 成 
分 能 涵盖 数据 集中 的 信息 , 尤其 是 数据 集中 的 变化 。 数 据 集中 的 变化 体现 在 数值 上 就 是 方差 。 也 
说 ， 利 用 这 个 算法 我 们 就 能 用 更 少 的 特征 捕捉 数据 集中 的 大 部 分 信息 。 


我 们 可 以 像 用 其 他 转换 器 一 样 使 用 PCA， 它 有 一 个 关键 字 参 数 ， 即 要 找到 的 成 分 数量 。 如 
果 不 填 写 这 个 参数 ， 就 会 默认 返回 原始 数据 集中 的 所 有 特征 来 作为 主 成 分 。 不 过 , 这些 主 成 分 是 
有 排名 的 ,第 1 位 的 特征 给 数据 集 贡 献 了 最 多 的 方差 ， 第 2 位 其 次 ， 以 此 类 推 。 因 此 ， 只 找 出 前 
几 位 特征 就 足够 描述 数据 集 的 大 部 分 信息 了 。 代 码 如 下 。 

from sklearn.decomposition import PCA 


pca = PCA(n_components=5) 
Xd = pca.fit transform(x) 


其 结果 中 的 xa 和 矩阵 仅 有 5 个 特征 。 不 过 我 们 要 看 一 下 这 些 特 征 的 方差。 
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np.set_printoptions (precision=3, suppress=True) 
pca.explained variance ratio_ 


其 结果 是 array ([ 0.854，0.145，0.001，0. ，0. ])。 这 个 结果 显示 , 第 1 位 的 特 
征 贡 献 了 数据 集中 85.4% 的 方差 .第 2 位 的 特征 贡献 了 14.5%， 后 面 的 特征 以 此 类 推 。 到 了 第 4 
位 特征 ， 它 就 只 占 不 到 0.1% 的 方差 了 。 其 余 的 1553 个 特征 占 比 更 低 (这 个 数组 有 序 )。 


用 了 PCA 转换 数据 集 的 副作用 是 其 得 到 的 特征 由 其 他 特征 组 合 而 成 , 而 组 合 方式 通常 很 复杂 。 
例如 上 述 代 码 返 回 的 第 1 个 特征 开始 的 几 个 值 是 [-0.092，-0.995，-0.024] ， 即 把 原始 数据 
集中 的 第 1 个 特征 乘 以 -0.092, 第 2 个 特征 乘 以 -0.095, 第 3 个 特征 乘 以 -0.024。 这 个 特征 有 1558 
个 这 种 形式 的 值 ， 每 个 值 对 应 原始 数据 值 的 一 列 特 征 〈 虽然 很 多 是 零 值 )。 这 样 的 特征 不 但 难以 
用 肉眼 识别 ， 而 且 如 果 没 有 丰富 的 经 验 ， 人 们 很 难 从 中 获取 有 用 的 信息 。 


PCA 产生 的 模型 不 仅 趋 近 于 原始 数据 集 ， 还 提升 了 针对 分 类 任务 的 性 能 。 


clf = DecisionTreeClassifier(random state=14) 
scores_reduced = cross_val_ scorel(clf, Xd, y, scoring='accuracy') 


分 类 结果 的 评分 达到 了 0.93$6， 比 直接 用 原始 数据 集 略 高 一 些 。 虽 然 PCA 并 不 总 能 带 来 这 
样 的 收益 ,但 是 大 多 数 情 形 下 还 是 能 获得 收益 的 。 
此 处 我 们 用 PCA 来 减少 数据 集中 的 特征 数量 。 不 过 因为 PCA 并 不 会 把 类 别 纳 入 
考虑 ， 所 以 一 般 而 言 ， 不 应 该 用 PCA 来 减轻 数据 挖 握 实 验 中 过 拟 合 现象 带 来 的 
影响 ， 而 应 该 用 正则 化 。 正 则 化 能 更 好 地 解决 过 拟 合 问题 。 
能 用 图 表 展 示 其 他 方法 难以 可 视 化 的 数据 集 是 PCA 的 另 一 个 优势 。 例 如 ， 我 们 可 以 为 PCA 
返回 的 前 两 个 特征 绘图 。 
首先 ， 计 Notebook 内 联 显示 图 表 。 


smatplotlib inline 
from matplotlib import pyplot as plt 


接 下 来 ， 找 出 数据 集中 所 有 不 同 的 类 别 ( 此 处 只 有 两 个 类 别 : 是 广告 、 不 是 广告 )。 

classes = set(y) 

之 后 ， 还 要 给 类 别 着 色 。 

colors = |["red’', :green ] 

利用 zip () 函数 同时 迭代 两 个 列表 。 人 然后 ,提取 属于 该 类 别 的 所 有 样本 ,并 根据 类 别 的 颜色 
把 样本 画 到 图 表 中 。 


for-. Cur ClaSs COLOR dl ZipD.(CLIaSSes, COLGESYS 
mask = (y == cur_class) 
plt.scatter (Xd[mask,0], Xd[lmask,1], marker='o', color=color, 
label=int (cur_class)) 
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最 后 ， 在 结束 循环 后 ,创建 图 例 并 显示 图 表 。 图 表 展 示 了 各 个 类 别 中 的 样本 分 布 ， 如 图 5-3 
所 示 。 


plt.legend() 
plt.show!() 
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5.5 创建 自己 的 转换 器 


随 着 接触 更 多 类 型 不 同 、 复 杂 程 度 各 异 的 数据 集 , 你 会 发 现 现 有 的 转换 器 已 经 不 能 满足 提取 
特征 的 需求 了 。 在 第 7 章 中 ， 我 们 会 从 图 ( graph， 一 种 数据 结构 ) 中 创建 特征 ， 届 时 也 要 自行 
创建 转换 需 。 


转换 需 与 转换 函数 是 同一 类 东西 ， 都 是 接受 某 种 形式 的 数据 ， 然 后 返回 另 一 种 形式 的 数据 。 
我 们 可 以 用 训练 数据 集训 练 转 换 器 ， 训 练 好 的 转换 器 参数 就 能 用 于 转换 测试 数据 了 。 


转换 器 的 API 相 当 简 单 。 它 以 特定 格式 的 数据 为 输入 , 以 与 输入 格式 相同 或 不 同 的 数据 为 输 
出 。 除 此 之 外 ， 它 对 编程 人 员 没 有 更 多 要 求 了 。 
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5.5.1 转换 器 API 
转换 器 需要 实现 两 个 关键 函数 。 


口 fit()。 这 个 函数 以 训练 数据 集中 的 数据 为 输入 ,来 设 定 转换 器 内 部 的 参数 。 
D transform() 。 这 个 函数 会 执行 转换 过 程 本 身 。 它 既 可 以 接受 训练 数据 集 作 为 输入 ， 也 
可 以 接受 相同 格式 的 新 数据 集 作为 输入 。 


输入 fit () 和 transform() 两 个 函数 的 数据 格式 应 该 是 相同 的 。fit () 总 是 返回 对 转换 需 
对 象 本 身 的 引用 (也 就 是 方法 参数 中 的 self ), 而 transform() 返 回 的 数据 格式 与 输入 的 数据 
格式 可 能 有 所 不 同 。 


下 面 我 们 要 创建 一 个 试验 性 的 转换 器 来 实际 展示 API 的 用 法 。 这 个 转换 器 把 一 个 NumPy 数 
组 作为 输入 ,然后 对 输入 中 的 数据 做 基于 均值 的 离散 化 处 理 。 高 于 ( 训练 数据 集 ) 均值 的 数值 将 
被 转换 成 1， 低 于 或 等 于 均值 的 值 将 被 转换 成 0。 


我 们 在 Adult 数据 集中 用 pangas 也 做 了 类 似 的 转换 : 把 特征 Hours-per-week ( 周 工作 时 
长 ) 作为 输入 ,创建 了 名 为 LongHours 的 特征 。 后 者 用 于 指示 Hours-per-week 是 否 大 于 每 
周 40 小 时 。 这 次 我 们 要 实现 的 转换 器 是 不 一 样 的 ， 原 因 有 两 个 : 一 是 转换 器 的 代码 要 遵从 
scikit-learn 的 API， 这 样 这 个 转换 器 以 后 也 能 用 在 流水 线 (pipeline ) 中 ; 二 是 转换 器 代码 
用 均值 进行 训练 ， 而 不 是 像 LongHours 例子 中 用 40 这 样 的 固定 值 。 











































































































5.5.2 ”实现 转换 器 


首先 ， 开启 用 于 处 理 Adult 数据 集 的 JupyterNotebook。 然 后 ,点 击 Cell 菜单 项 ,选择 Run All。 
这 会 重新 运行 全 部 输入 框 中 的 代码 ， 确 保 笔记 本 中 的 内 容 是 最 新 的 。 

首先 ， 导 人 TransformerMixin 以 设置 API。Python 没 有 严格 的 接口 (这 一 点 上 与 Java 是 相 
反 的 )， 而 是 用 Mixin" 的 形式 让 scikit-learn 判 断 一 个 类 是 否 确 实 是 一 个 转换 器 。 我 们 还 需要 
导入 一 个 用 于 检查 输入 是 否 为 有 效 形 式 的 函数 ， 后 面 会 用 到 它 。 

来 看 一 下 代码 。 


from sklearn.base import TransformerMixin 
from sklearn.utils import as_float_array 


再 看 一 下 整个 类 ， 之 后 会 解释 细节 。 


class MeanDiscrete(TransformerMixin): 
def fit(self, XxX, y=None): 






















































































Q@ Mixin 是 面向 对 象 编程 的 一 种 类 ， 可 以 为 使 用 它 的 类 扩充 功能 ， 而 不 必 让 使 用 类 成 为 子 类 。 使 用 类 与 它 之 间 不 是 
“继承 ”关系 ， 而 是 “包含 ”关系 。Mixin 其 实 是 组 合 模式 〈composite pattern ) 的 一 种 实现 形式 。 一 一 译 者 注 
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X = as_float_array (X) 
self.mean = X.mean (axis=0) 
return self 


def transform(self, X, y=None): 
X= as-float. arrav (xX) 
assert X.shape[1] == self.mean.shapel[0] 
return X > self.mean 


这 个 类 通过 用 fit () 方 法 中 的 xX.mean (axis=0) 语 句 计算 均值 来 训练 转换 器 ， 并 把 均值 存 
放 在 对 象 的 属性 中 。 此 后 ，fit () 函数 返回 self ( 对 对 象 本 身 的 引用 )， 以 与 转换 器 的 API 要 求 
(scikit-learn 的 链 式 函 数 调用 需要 这 种 形式 的 返回 值 ) 相符 合 。 


用 fit () 函数 训练 好 转换 需 后 ， 就 可 以 把 特征 数量 与 训练 数据 集 相 同 的 (assert 语句 会 确 
认 和 矩阵 的 形状 ) 矩阵 传 给 tranform() 函数 了 。 它 返 回 的 结果 会 表明 输入 矩阵 中 的 特征 值 是 否 大 
于 对 应 特征 的 均值 。 


既然 转换 器 类 已 构建 完成 ， 我 们 就 可 以 创建 一 个 该 类 的 实例 用 来 转换 工 数 组 。 


mean_discrete = MeanDiscrete() 
X_mean = mean discrete.fit_ transform(X) 


我 们 可 以 尝试 把 转换 器 实现 到 工作 流程 (workflow ) 中 ,并 且 将 用 流水 线 ( pipeline ) 和 不 用 
流水 线 两 种 方式 都 尝试 一 下 。 你 会 发 现 遵循 转换 器 API 的 规范 之 后 ， 替 代 scikit-learn 内 置 
转换 器 其 实 相 当 简 单 。 


























5.6 单元 测试 
你 在 自行 创建 函数 和 类 后 最 好 做 一 下 单元 测试 。 单元 测试 由 在 测试 代码 中 的 单一 单元 。 本 例 
中 我 们 会 测试 转换 器 的 工作 情况 是 否 符合 预期 。 
好 的 测试 理应 采用 独立 验证 的 方法 。 用 其 他 计算 机 语言 或 方法 执行 计算 可 以 有 效 确 保 测试 的 
合理 性 。 鉴 于 此 , 应 该 用 Excel 创建 数据 集 , 并 计算 每 个 单元 格 的 均值 ,再 用 这 些 值 参与 单元 测试 。 
单元 测试 通常 是 体积 小 巧 、 运 行 快捷 的 测试 。 因此， 用 于 单元 测试 的 数据 规模 要 比较 小 。 之 
前 用 来 测试 的 数据 集 被 存储 在 总 变量 中 ， 而 在 这 次 的 测试 中 ， 我 们 要 重新 创建 测试 数据 。 两 个 
特征 的 均值 分 别 是 13.5 和 15.5。 
导入 NumPy 测试 模块 中 的 assert_array_equal () 限 数 ， 以 创建 我 们 的 单元 测试 。 这 个 函 
数 会 检查 两 个 数组 是 否 等 同 。 
from numpy.testing import assert_array_equal 
接 下 来 创建 我 们 的 函数 。 测试 函 数 的 名 称 是 个 重点 ,其 名 称 应 以 test_ 开头。 这 是 因为 测试 工 
1 会 根据 这 种 命名 方式 自动 查找 并 运行 测试 函数 。 男 外 ， 我 们 还 要 设置 好 测试 数据 。 
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def test_meandqiscrete() : 


X_ test = np.array([ 


# 创建 转换 器 的 实例 
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mean_ discrete = MeanDiscrete() 
mean_ discrete.fit (xX test) 


# 检验 计算 的 均值 是 否 正 


确 


assert_array_equal (mean discrete.mean, np.array ([13.5, 15.5])) 


# 还 要 检验 转换 结果 是 否 


符合 预期 


X_transformed = mean discrete.transform(X test) 
XxX_expected = np.array ([[ 0, 0]， 


2 
i ey I 








1, 1]]) 


assert_array_equal (X_ transformed, X_ expected) 





然后 调用 函数 本 身 即 可 运 


test_meandiscrete() 


行 测试 。 


如 果 没 有 报错 ,那么 测试 就 取得 了 圆满 成 功 ! 你 可 以 故意 把 代码 中 的 值 改 成 错误 的 ， 确 认 一 











下 测试 是 否 会 失败 。 但 是 ， 要 


如 果 我 们 的 测试 项 比较 多 ， 


Ts ed 
， 由 于 测试 框架 的 使 用 超 





5.7 ”组装 成 型 


既然 我 们 的 转换 器 已 经 通过 





记得 把 错误 的 值 改 回来 ， 这 样 以 后 执行 测试 时 才能 顺利 通过 。 
那么 就 需要 采用 py .test 或 nose 这 样 的 测试 框架 来 运行 测试 
试 的 运行 、 记 录 测 试 失败 ， 以 及 提供 反馈 来 帮助 你 改进 代码 质量 。 
出 了 本 书 范 畴 ， 因 而 在 此 不 会 讨论 。 

















测试 , 那么 是 时 候 将 其 投入 实际 使 用 了 。 运用 我 们 之 前 掌握 的 要 











点 创建 一 条 流水 线 ， 把 MeanDiscrete 转换 器 作为 流水 线 的 第 一 个 步骤 ， 把 决策 树 分 类 器 作为 


流水 线 的 第 二 个 步 又。 接 下 来 








运行 交叉 验证 ， 然 后 输出 结果 。 代 码 如 下 。 


from sklearn.pipeline import Pipeline 


pipeline = Pipeline([( 


'mean_discrete', MeanDiscrete()), 
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('classifier', DecisionTreeClassifier( 
random_ state=14))]) 


scores_mean discrete = cross_val_ score(pipeline, XxX, y, scoring='accuracy') 


结果 不 如 从 前 , 只 有 0.917。 不 过 对 于 一 个 简单 的 二 值 特征 模型 而 言 , 这 个 成 绩 已 经 非常 好 了 。 





5.8 本章 小 结 


本 章 着 眼 于 特征 与 转换 器 , 关注 如 何在 数据 挖掘 流水 线 中 使 用 转换 器 。 我 们 还 讨论 了 如 何 创 
建 好 的 特征 ， 以 及 如 何 用 算法 从 标准 特征 集合 中 选取 好 特征 。 不过， 由 于 创建 好 的 特征 比 起 科学 

















更 像 是 艺术 ， 因 此 通常 还 需要 专业 领域 知识 与 经 验 的 帮助 。 


随后 ， 我 们 以 实现 接口 的 方式 创建 了 自己 的 转换 器 ， 这 样 的 转换 顺 可 以 与 scikit-learn 








中 的 辅助 画 数 配合 使 用 。 在 后 面 的 章节 中 ， 我 们 还 会 创建 更 多 的 转换 器 ， 这 相 





scikit-learn 中 现 有 的 函数 更 高 效 地 完成 测试 。 





就 可 以 有 





我 建议 读者 在 数据 控 掘 竞赛 网 站 Kaggle.com 上 注册 账号 ， 尝 试 参与 其 中 的 一 些 竞 赛 ， 以 加 
深 对 本 章 内 容 的 理解 。Kaggle.com 网 站 建议 从 泰坦 尼克 ( Titanic ) 数据 集 入 手 , 我 们 可 以 用 它 练 
习 本 章 介绍 的 特征 创建 的 各 方面 内 容 。 不 过 由 于 其 中 的 许多 特征 不 是 数值 特征 ,因此 你 需要 在 应 








用 数据 挖掘 算法 前 ， 把 这 些 特 征 转换 为 数值 特征 。 








本 数据 的 转换 器 和 文本 的 特征 类 型 以 及 它们 的 优 缺 点 。 





在 下 一 章 中 , 我 们 不 仅 会 在 由 文本 文档 组 成 的 语料库 中 完成 特征 提取 , 还 会 了 解 许 多 针对 文 
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图 书 、 法 律 文档 、 社 交 媒 体 和 电子 邮件 等 都 是 基于 文本 的 文档 ， 而 这 种 文档 包含 大 量 信息 。 
对 于 搜索 引擎 、 法 律 人 工 智能 和 自动 化 的 新 闻 服 务 等 这 样 的 现代 AI 系统 而 言 ， 从 基于 文本 的 文 
档 中 提取 信息 至 关 重 要 。 


因为 文本 本 质 上 不 是 数值 , 所 以 从 文本 中 提取 有 用 的 特征 成 为 了 一 个 难题 。 我们 必须 先 用 某 

种 模型 从 文本 创建 特征 ， 才 能 把 数据 挖掘 算法 应 用 到 文本 中 。 好 消息 是 ,一 些 简单 的 模型 能 有 效 

地 满足 这 种 需求 ， 其 中 就 包括 本 章 要 用 到 的 词 袋 (bag-of-words ) 模型 。 
在 本 章 中 , 我 们 关注 在 数据 挖掘 的 应 用 场景 中 从 文本 中 提取 有 用 特征 。 本 章 有 一 个 特别 环 手 的 

问题 ， 那 就 是 社交 媒体 中 的 词义 消 歧 (term disambiguation ) 问题 ， 即 根据 上 下 文 判 断 词 义 的 问题 。 
本 章 涵盖 以 下 话题 : 

口 通过 社会 网 络 API 下载 数据 ; 

口 文本 数据 的 转换 器 与 模型 ; 

口 朴素 贝 叶 斯 分 类 器 ; 

口 用 JSON 格式 保存 和 加 载 数据 集 ; 

口 用 NLTK 库 创 建 模型 ; 

口 用 Fi score ?评估 模型 。 


6.1 消 歧 
文本 数据 一 般 被 称 为 非 结 构 化 (unstructured ) 格式 的 数据 。 虽 然 文 本 中 蕴含 着 大 量 信息 , 但 
















































































GD Fi score 又 名 F-measure、F-score。 根 据 “The truth of the F-measure”( Sasaki, Y., 2007 ) 中 的 推测 ， 这 个 命名 是 在 
1992 年 的 第 4 届 消 息 理解 会 议 (MUC，Message Understanding Conference ) 上 偶然 选取 的 。 该 次 会 议 首 次 提出 了 
C.J. van Rijsbergen 所 著 Information Retrieval 一 书 中 的 “F-measure” 概 念 ， 并 视 其 为 一 种 不 同 的 F 函数 ， 由 此 有 
了 “F-measure” 这 个 名 字 。 译 者 注 
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是 这 些 信 息 只 是 存在 于 文本 中 ， 而 不 能 自动 浮现 出 来 。 缺少 标题 、 没 有 必要 的 格式 区 分 ( 除 正常 
的 语法 规则 外 )、 松 散 的 句法 和 其 他 问题 都 会 成 为 从 文本 中 提取 信息 的 障碍 。 同 时 ， 文 本 数据 自 
身 也 因 大 量 的 提 及 、 交 叉 引 用 而 产生 了 高 度 的 关联 性 , 这 同样 成 为 了 我 们 难以 从 文本 中 提取 信息 
的 原因 。 即 便 是 判断 一 个 词 是 否 为 名 词 这 样 看 似 简单 的 问题 ， 其 中 也 会 有 许多 奇怪 的 边界 情况 。 
这 样 一 来 ， 寻 求 可 靠 的 方法 着 实 需要 下 一 番 功 夫 。 


我 们 可 以 比较 一 下 以 图 书 与 数据 库 两 种 形式 存储 的 信息 , 看 看 它们 的 区 别 。 虽然 图 书 中 会 包 
含 角 色 、 主 题 和 场景 等 大 量 信息 ， 但 这 些 信息 要 在 文化 语 境 下 进行 阅读 和 解读 才能 掌握 。 相 反 ， 
服务 器 上 的 数据 库 按 列 名 和 数据 类 型 组 织 信息 。 因 为 所 有 信息 都 显而易见 , 所 以 从 中 提取 特定 信 
息 的 门槛 也 就 相当 低 了 。 


有 关 数 据 本 身 的 信息 ， 比 如 数据 的 类 型 或 数据 的 意义 ， 叫 作 元 数据 ( metadata )， 而 文本 恰恰 
缺少 元 数据 。 虽 然 图 书 中 也 包含 以 目录 和 索引 等 形式 展现 的 元 数据 , 但 这 样 的 元 数据 能 提供 的 信 
息 量 远 远 少 于 数据 库 。 


词义 消 歧 (term disambiguation ) 就 是 文本 数据 处 理 中 的 一 个 问题 。 当 有 人 在 消息 中 使 用 bank 
这 个 词 时 ， 这 条 消息 是 关于 财务 的 ( 银行 ) 还 是 关于 环境 (比如 river bank 指 河岸 ) 的 呢 ? 对 于 
人 类 而 言 ， 尽 管 有 时 也 会 遇 到 麻烦 ， 然 而 这 种 类 型 的 消 靶 在 很 多 场景 下 再 简单 不 过 了 。 但 是 , 对 
于 计算 机 而 言 ， 这 个 任务 就 难 多 了 。 


本 章 ， 我 们 将 着 手 为 Twitter 信息 流 中 的 Python 一 词 消 歧 。 当 大 家 说 起 Python 时 ， 可 能 是 
在 说 下 面 这 些 事物 : 
口 编程 语言 Python; 
口 Monty Python”， 经 典 喜 剧团 体 ; 
D 晓 蛇 ; 
口 鞋 类 品牌 Python。 

虽然 还 可 能 有 更 多 叫 作 Python 的 东西 ， 但 我 们 的 实验 只 关注 如 何 只 基于 推 文 内 容 ， 判 断 其 
中 提 到 的 Python 指 的 是 不 是 编程 语言 Python 。 








































































































在 Twitter 上 发 布 的 消息 被 称 为 推 文 (tweet )， 其 长 度 不 超过 140 字 。 推 文中 包含 
0 大 量 的 元 数据 , 例如 发 布 的 时 间 与 日 期 、 推 文 的 发 布 者 等 。 不 过 由 于 我 们 关注 的 
是 推 文 主题 ， 因 而 这 些 元 数据 的 用 处 不 大 。 


本 章 的 数据 挖掘 实验 包括 下 列 步骤 : 











Q@ 因为 编程 语言 Python 的 创始 人 Guido van Rossum 是 Monty Python 的 铁杆 粉丝 ， 所 以 编程 语言 Python 的 名 称 来 源 
于 这 个 团体 。 另 外 , 在 Python 代码 和 社区 中 也 会 见 到 向 Monty Python 致敬 的 内 容 。 比 如 在 Python 文档 中 ， 伪 变 
量 经 常 是 spam 和 eggs ( 出 自 Monty Python 的 素描 喜剧 Spam )， 而 不 是 常见 的 foo 和 bar。 译 者 注 
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(1) 从 Twitter 上 下 载 推 文 数据 ; 

(2) 手动 分 类 数据 以 创建 数据 集 ; 

(3) 保存 数据 集 以 便 再 次 分 析 研 究 ，; 

(4) 用 一 个 由 朴素 贝 叶 斯 实现 的 分 类 融 进 行 词义 消 卜 。 


6.2 ”从 社交 媒体 下 载 数据 


首先 ， 从 Twitter 上 下 载 语 料 数据 ， 并 剔除 垃圾 信息 ， 仅 留 下 有 用 的 内 容 。Twitter 提供 了 用 
于 收集 其 服务 器 上 信息 的 API， 这 个 API 不 但 运行 稳定 ， 而 且 对 小 规模 的 应 用 免费 。 不 过 ， 要 在 
商业 中 使 用 Twitter 上 的 数据 ， 就 需要 遵循 Twitter 对 此 的 规定 。 


首先 ， 你 需要 注册 一 个 Twitter 账号 (账号 是 免费 的 )。 


下 一 步 ， 要 确保 你 每 分 钟 只 发 送 特定 数量 的 请 求 。 当 前 的 限制 是 每 15 分 钟 不 超过 15 个 请 求 
(取决 于 具体 的 API )。 因 为 在 代码 中 遵循 这 样 的 限制 比较 麻烦 ， 所 以 在 这 里 ,我 强烈 建议 你 用 现 
成 的 库 来 访问 Twitter 的 API。 




























































































在 用 自己 的 代码 访问 基于 Web 的 API (在 自己 的 代码 中 执行 Web 调用 ) 之 前 ， 
人 请 确保 你 已 经 阅读 并 理解 了 相关 文档 中 关于 速率 限制 的 说 明 。 在 Python 中 ， 你 
可 以 用 time 库 实现 每 次 执行 API 调用 的 间隔 ， 以 确保 没有 违反 速率 限制 。 
接 下 来 你 还 需要 一 个 用 于 访问 Twitter 数据 的 密 钥 。 访 问 http:/twittercom， 登 录 账 号 。 登 录 后 ， 
访问 http:/app.twittercom， 点 击 Create New App。 创 建 应 用 ， 填 和 人 应 用 名 称 、 描 述 以 及 网 站 地 址 。 


如 果 没 有 要 使 用 API 的 网 站 ， 那 么 你 可 以 随便 填 点 什么 。Callback URL 字段 留 空 ， 因 为 我 
们 不 需要 它 。 选 择 同意 使 用 条 款 ( 如果 你 确实 同意 )， 然 后 点 击 Create your Twitter application。 


操作 之 后 不 要 关闭 页 面 ， 因 为 你 还 需要 页 面 中 的 访问 密 钥 ( access key )。 然 后 ， 我 们 需要 一 
个 与 Twitter 交互 的 库 。 虽 然 备 选 方案 有 很 多 ,但 是 我 喜欢 用 twitter 这 个 名 字 简 单 的 库 ， 它 也 
是 Twitter 官方 的 Python 库 。 


























如 果 你 使 用 pip 安装 包 ， 那 么 在 命令 行 中 执行 pip3 install twitter 就 能 
安装 twitter 了 。 在 本 书 撰写 时 ，Anaconda 还 没有 收录 twitter 库 ， 因 此 用 
6 conda 不 能 安装 它 。 如 果 你 正在 使 用 其 他 系统 或 想 要 从 源码 编译 ,请 参看 文档 : 
https://github.conm/sixohsix/twitter。 
创建 新 的 Jupyter Notebook 来 下 载 数据 。 因 为 本 章 中 将 会 根据 不 同 目的 创建 多 个 笔记 本 ， 所 
以 最 好 创建 一 个 文件 夹 以 保存 这 些 笔记 本 。 第 一 个 笔记 本 应 命名 为 ch6_get_twitter, 专门 用 
于 下 载 Twitter 数据 。 
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首先 ,导入 twitter 库 并 设置 好 授权 令 牌 (authorization token )。 在 价 9 Twitter 应 用 页 面 的 
Keys and Access Tokens 标签 页 下 可 以 找到 使 用 者 标识 ( consumer key ) 与 使 用 者 密 钥 ( consumer 
secret )。 在 同一 个 页 面 中 ， 你 还 需要 点 击 页 面 上 的 Create my access token 按钮 获取 访问 令 牌 
(access token )。 在 代码 中 合适 的 位 置 输入 这 些 密 钥 。 


import twitter 








Consumer_key = "<Your Consumer Key Here>" 

consumer .secret = "<Your Consumer ‘Secret. Here>" 
access_token = "<Your Access Token Here>" 
access_token,_secret = "<Your Access Token Secret Here>" 


authorization = twitter.OAuth(access_token, access_token secret, 
consumer_key, consumer_secret) 


下 面 ， 用 Twitter 的 搜索 ( search ) 函数 获取 推 文 。 用 授权 信息 登录 Twitter， 创 建 一 个 阅读 
器 来 执行 搜索 。 在 Notebook 中 设置 好 存储 推 文 的 文件 的 名 称 。 


import os 
output_filename = os.path.join(os.path.expanduser("~"), "Data", "twitter", 
"python_ tweets.json") 


下 一 步 ， 用 前 面 生成 的 授权 信息 对 象 创建 用 于 从 Twitter 读 取 数 据 的 对 象 。 


t = twitter.Twitter(auth=authorization) 


然后 ， 打开 得 出 文件 ， 以 备 后续 写 入 。 我 们 以 附加 (append ) 模式 打开 文件 ， 这 可 以 让 脚本 
重复 运行 ， 以 附加 更 多 的 推 文 。 用 上 面 的 Twitter 连接 搜索 单词 “Python”。 我 们 只 需要 将 结果 中 
返回 的 statuses 用 于 数据 集 。 这 段 代码 会 处 理 推 文 数据 , 它 会 用 json 库 的 aumps () 函数 以 文 
本 形式 表示 推 文 数据 ， 再 将 其 写 入 到 文件 中 。 它 还 会 在 每 条 推 文 下 面 添 加 空 行 ， 以 便于 辨识 推 文 
数据 的 起 始 与 结束 。 
import json 
with open(output_filename, 'a') as output_file: 
search _ results = t.search.tweets(gq="python", count=100)['statuses'] 
for tweet in search results: 
if 'text' in tweet: 
output_file.write(json.dumps (tweet)) 
output_file.write("\n\n") 


在 上 面 的 循环 中 ,我们 还 检查 了 推 文中 是 否 有 文本 。Twitter 返回 的 对 象 并 不 都 是 推 文 (例如 
有 的 响应 是 删除 推 文 的 动作 )。 其 关键 区 别 在 于 推 文中 是 否 有 text 键 ， 而 我 们 也 正 是 这 样 检 查 推 
文 数据 的 。 运行 脚本 几 分 钟 后 , 我 们 就 会 收获 100 条 推 文 数据 , 并 且 它 们 已 经 写 人 到 了 输出 文件 中 。 




































































你 可 以 一 直 重 复 运行 这 个 脚本 来 向 数据 集中 添加 更 多 的 推 文 ,但 如 果 运 行 过 于 频 
繁 ， 那 么 因为 Twitter 上 还 没有 足够 多 的 新 数据 ， 所 以 输出 文件 中 会 出 现 很 多 重 

俏 复 的 内 容 。 虽 然 对 于 这 次 初步 试验 而 言 ，100 条 推 文 就 足够 了 ， 但 是 你 可 能 会 重 
复 运 行 脚 本 以 获取 大 概 1000 条 数据 。 
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6.2.1 加 载 数据 集 并 分 类 


我 们 在 采集 了 一 些 推 文 〈 也 就 是 我 们 的 数据 集 ) 后 ， 就 需要 为 后 续 分 类 操作 提供 标注 信息 了 。 
接 下 来 ,在 Jupyter Notebook 中 设置 一 个 表单 ， 以 输入 标注 信息 。 为 此 ， 我 们 将 加 载 上 一 节 中 
采集 的 推 文 数据 ， 和 迭代 其 中 的 每 一 条 ， 并 根据 推 文中 是 否 提 到 Python 编程 语言 ， 手 动 提 供 分 类 
计 息 


鹿 /\o 
































数据 集 存储 的 格式 近似 ( 但 不 完全 是 ) JSON 格式 。JSON 格式 仅仅 约束 了 语法 ， 对 数据 的 
结构 则 要 求 宽松 。JSON 的 设计 用 意 是 让 JavaScript 能 直接 读 取 这 一 格式 的 数据 ( 正如 其 名 
JavaScript Object Notation )。JSON 中 定义 了 基本 的 对 象 类 型 ， 比 如 数值 、 字 符 串 、 列 表 和 字典 等 。 
如 果 数 据 集中 包含 非 数值 数据 , 那么 JSON 就 是 一 种 不 错 的 存储 格式 。 如 果 数 据 集 中 全 都 是 数值 ， 
那么 应 该 用 像 NumPy 一 样 的 基于 矩阵 的 格式 进行 存储 ， 以 节省 存储 空间 和 计算 时 间 。 


























我 们 的 数据 集 和 真正 的 JSON 之 间 的 关键 差异 在 于 推 文 之 间 的 空 行 。 添 加 空 行 是 
为 了 方便 附加 新 的 推广 数据 ( 如 果 是 真正 的 JSON 格式 ， 那么 附加 新 的 推 文 数据 
0 就 很 麻烦 )。 我 们 用 JSON 格式 表示 单条 推 文 ， 在 其 后 添加 空 行 ， 接 下 来 才 是 下 
一 条 推 文 ， 以 此 类 推 。 


首先 ， 按 空 行 分 割 数据 集 文件 ， 拆 出 实际 的 推广 对象 ， 然 后 用 json 库 进 行 解析 。 打 开 一 份 
新 的 Jupyter Notebook， 命 名 为 cn6_label_twittetr。 在 其 中 加 载 并 和 欠 代 作为 输入 文件 的 数据 
集 , 在 循环 中 逐条 保存 推 文 。 用 下 面 的 代码 简单 检查 推 文中 是 否 有 实际 文本 。 如 果 有 , 则 用 json 
库 加 载 推 文 并 将 其 添加 到 列表 中 。 


import json 
import os 























# 输入 文件 名 

input_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "python tweets.json") 

# 输出 文件 名 

labels_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "python classes.json") 

tweets = [] 


with open(input_filename) as inf: 
for dine. Tn Tif 
if len(line.strip()) == 0: 
continue 
tweets.append(json.loads (line)) 


现在 , 手动 分 类 数据 集 ， 判断 其 中 的 各 项 对 我 们 来 说 是 否 有 相关 意义 ， 即 有 没有 提 及 编程 语 
言 Python。 我 们 在 Jupyter Notebook 中 内 肯 HTML， 利 用 其 提供 的 JavaScript 与 Python 的 交互 来 
创建 一 个 视图 ， 该 视图 用 于 便捷 地 分 类 推 文 ， 判断 其 是 否 为 垃圾 信息 。 代 码 会 向 用 户 (你 ) 展示 
一 条 推 文 ， 询问 推 文 是 否 有 相关 意义 ,并 用 该 问题 的 答案 标注 推 文 。 然 后 ， 它 会 保存 标注 结果 并 
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展现 下 一 条 待 标注 的 推 文 。 


首先 , 创建 一 个 用 于 保存 标注 结果 的 列表 。 无 论 给 出 的 推 文 是 否 提 及 编程 语言 Python， 这 些 
标注 结果 都 会 被 保存 ， 因 为 它们 可 以 用 于 训练 分 类 器 区 分 单词 Python 的 不 同意 义 。 


























仿 查 是 否 存 在 现 有 标注 ， 如果 有 ， 加 载 它 们 。 这 在 标注 中 途 需 要 关闭 笔记 本 时 很 用。 代码 
会 从 上 一 次 的 位 置 加 载 标注 。 事先 考虑 如 何 保存 任务 的 中 间 状 态 通 常 很 有 必要 。 假如 你 已 经 计算 
了 一 个 小 时 之 久 , 却 遇 到 停机 又 没有 保存 结果 , 那么 没有 什么 比 这 更 令 人 诅 丧 的 了 。 下 面 的 代码 
可 以 用 于 加 载 数据 集 。 

labels = [] 

if os.path.exists(Llabels_filename) : 


with open(labels_filename) as inf: 
labels = json.load (inf) 








WU 


首次 运行 这 段 代码 时 ,什么 都 不 会 发 生 。 在 手动 分 类 一 些 示 例 数 据 后 , 你 可 以 保存 进度 然后 
关闭 笔记 本 。 此 后 ， 再 重新 打开 笔记 本 ， 就 能 恢复 之 前 的 进度 。 














如 果 你 错误 地 分 类 了 一 份 或 两 份 推 文 ， 那么 不 用 太 担 心 。 如 果 你 分 错 了 大 多 , 想 
要 从 头 开 始 ， 那 么 只 需要 删除 python_classes.json 文件 ， 上 述 代 码 就 会 识 
别 出 分 类 结果 为 空 ， 不 再 读 取 。 如 果 你 要 删除 所 有 数据 ， 从 获取 推 文 重新 开始 ， 
人 那么 请 确保 python_tweets.json 和 python_classes.json 这 两 个 文件 都 
被 移 除 。 否则 ,笔记 中 的 代码 就 不 能 正常 工作 了 ， 它 会 将 新 推 文 分 入 旧 数 据 集中 
的 类 别 。 
接 下 来 ,创建 一 个 简单 的 函数 ， 以 返回 下 一 条 竺 标注 的 推 文 。 要 做 到 这 一 点 ， 找 出 首 条 尚未 
标注 的 推 文 即 可 。 这 个 函数 的 代码 很 直截了当 。 我 们 可 以 用 已 标注 的 推 文 数 量 ( len (labels) ) 
作为 索引 来 获取 tweet_sample 列表 中 的 下 一 条 推 文 。 


def get_ next tweet () : 
return tweets[len(labels)]['text'] 









































实验 的 下 一 步 就 是 从 用 户 〈 也 就 是 你 ) 处 采集 关于 推 文 是 否 提 及 编程 语言 Python 的 信息 。 





目前 在 Jupyter Notebook 中 尚且 没有 一 种 纯 由 Python 实现 的 交互 式 方 法 能 直接 、 
有 效 地 获取 如 此 大 量 的 文本 文档 的 用 户 反馈 。 鉴 于 此 ， 我 们 用 一 些 JavaScript 代 
码 和 HTML 代码 来 读 取 用 户 输入 。 下 面 的 例子 是 一 种 可 行 方法 。 但 方法 很 多 ， 
不 限于 此 。 


为 了 获得 反馈 ， 我 们 需要 一 个 JavaScript 组 件 ， 用 于 加 载 并 显示 下 一 条 推 文 。 我 们 还 需要 一 


个 HIML 组 件 ， 用 于 创建 HTML 元 素 以 展示 推 文 。 这 里 我 们 仅 介绍 大 体 的 工作 流程 ， 而 不 会 详 
细 介 绍 代码 的 具体 细节 。 
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(1) 获取 要 交 给 10ad_next_tweet 分 类 的 下 一 条 推 文 。 

(2) 通过 handle_output 将 其 展示 给 用 户 。 

(3) 等 竺 用 户 用 $ ("input#capture") .keypress 按 0 键 或 1 键 。 
(4) 通过 set_label 把 结果 保存 到 类 别 列表 中 。 


一 直 重 复 上 述 步 又 直到 列表 结尾 此 时 会 出 现 IndexError 异常 ， 意味 着 已 经 没有 需要 分 
类 的 推 文 了 )。 代 码 如 下 (不 要 忘 了 你 可 以 从 Packt 或 官方 GitHub 仓库 中 下 载 代码 )。 


SShtml 
<div name="tweetbox"> 
Instructions: Click in text box. Enter a 1 if the tweet is relevant, enter 0 
otherwise.<br> 
Tweet: <div id="tweet_text" value="text"></div><br> 
<input type=text id="capture"></input><br> 
</div> 

















<script> 

function set_label (label){ 
Var kernel = IPython.notebook.kernel; 
kernel .execute("labels.append(" + label + ")"); 
load_next_ tweet (); 


} 


function load next_tweet (){ 


Var code_input = "get_ next_tweet ()"; 
Var kernel = IPython.notebook.kernel; 
var callbacks = { 'iopub' : {'output' : handle output}}; 


kernel .execute(code_ input, callbacks, {silent:false}); 


function handle_ output (out){ 
console.log(out); 
Var res = out.content.data[l"text/plain"]; 
$s ("divi#tweet_text") .html (res); 

} 


$ ("input#capture") .keypress (function(e) { 
console.log(e);} 
if(le.which == 48) { 
// 按 0 键 
set_label (0); 
$s ("input#capture") .val (""); 
}else if (e.which == 49){ 
// 按 1 键 
set_label (1); 
$s ("input#capture") .val (""); 


es 


load_next_tweet (); 
</script> 
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你 需要 在 一 个 输入 框 中 输入 (或 是 从 代码 包 中 直接 复制 ) 所 有 的 这 些 代 码 。 这 段 代码 包含 了 
HTML 和 JavaScript 的 组 合 ， 可 以 根据 你 的 输入 手动 为 推广 分类。 如果 要 停止 或 保存 标注 进度 ， 
只 需 在 下 一 个 输入 框 中 运行 下 面 的 代码 ， 它 会 保存 进度 ， 而 且 不 会 打 断 上 面 HTML 代码 的 正常 
工作 。 


with open(1apbels_filename，'w') as outf: 
json.dump (labels, outf) 











6.2.2 创建 可 重 现 的 Twitter 数据 集 


在 数据 挖掘 中 会 出 现 许 多 变量 。 它 们 不 是 数据 挖掘 算法 的 参数 , 而 是 用 于 决定 数据 采集 方式 、 
环境 搭建 方式 以 及 许多 其 他 因素 。 要 验证 或 改进 结果 ， 重 现实 验 结果 是 很 重要 的 。 


用 算法 在 某 个 数据 集 上 达到 80% 的 准确 率 ， 而 用 算法 了 在 男 一 个 数据 集 上 达到 90% 的 准 
确 率 ， 并 不 意味 着 算法 了 更 优秀 。 若 想 妥 善 地 比较 两 个 算法 熟 优 执 劣 ， 就 要 在 相同 的 数据 集中 、 
相同 的 条 件 下 进行 测试 。 运 行 前 文中 的 代码 , 你 得 到 的 数据 集会 与 我 创建 旦 投入 使 用 的 数据 集 有 
所 不 同 。 其 主要 原因 是 Twitter 返回 的 搜索 结果 与 你 执行 搜索 的 时 间 有 关 。 


而 且 ， 你 的 对 推 文 的 标注 也 会 跟 我 不 一 样 。 虽 然 会 有 明显 与 编程 语言 Python 有 关 的 推 文 ， 
但 也 会 有 模棱两可 的 “灰色 地 带 "。 我 遇 到 的 比较 麻烦 的 灰色 地 带 之 一 是 外 语 推 文 ， 因 为 我 没 法 
读 懂 这 些 推 文 。 我 们 可 以 通过 设置 Twitter API 中 的 语言 选项 来 解决 该 问题 。 但 语言 选项 的 效果 并 
不 完美 ， 总 有 漏网 之 鱼 。 


受 种 种 因素 影响 ， 从 社交 媒体 中 提取 出 的 数据 集 对 重 现实 验 而 言 是 不 小 的 麻烦 ， 而 Twitter 
也 不 例外 。 虽 然 Twitter 明确 禁止 直接 共享 数据 集 ， 但 我 们 可 以 通过 只 共享 推 文 ID 来 规避 这 一 限 
制 。 本 节 中 我 们 就 将 创建 推 文 ID 数据 集 ， 这 样 就 可 以 自由 共享 数据 集 了 。 那 么 接 下 来 我 们 就 要 
看 看 如 何 从 推 文 ID 数据 集中 下 载 原 始 推 文 ， 以 重建 原始 的 推 文 数据 集 。 首 先 ， 保存 这 个 内 容 是 
推 文 ID 的 可 重 现 (replicable ) 数据 集 。 


创建 男 一 个 新 的 Jupyter Notebook， 并 像 之 前 标注 时 一 样 设置 好 文件 名 。 只 是 这 次 多 了 一 个 
新 的 文件 名 ， 用 来 保存 可 重 现 的 数据 集 。 代 码 如 下 。 


import os 













































































































































































a 


input_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "python tweets.json") 
labels_filename = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "python classes.json") 
replicable dataset = os.path.join(os.path.expanduser ("~"), "Data", 
"twitter", "replicable dataset.json") 





加 载 前 一 个 笔记 本 中 标注 过 的 推 文 和 标注 信息 。 


import json 
tweets = [] 
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with open(input_filename) as inf: 
for line in inf: 
if len(line.strip()) == 0: 
continue 
tweets.append(json.loads (line)) 
if os.path.exists(labels_filename): 
with open(labels_filename) as inf: 
labels = json.load (inf) 


现在 ， 同 时 迭代 推 文 和 标注 ， 并 将 其 保存 到 列表 中 ， 以 创建 数据 集 。 下 面 这 段 代 码 有 一 个 不 
可 忽视 的 副作用 : 由 于 zip() 函数 的 第 一 个 参数 是 labels (标注 )， 因 而 这 段 代码 只 会 根据 我 
们 已 经 创建 的 标签 数量 加 载 相 应 数量 的 推 文 。 换 言 之 , 这 段 代 码 可 以 在 只 标注 了 一 部 分 推 文 的 数 
据 集 上 运行 。 


dataset = [(tweet['id'], label) for label, tweet in zip(labels, tweets)] 


后 ， 在 文件 中 保存 结果 


with open(replicable dataset, 'w') as outf: 
json.dump (dataset, outf 


我 们 已 经 把 推 文 ID 和 标注 保存 到 新 的 数据 集中 ， 可 以 重建 原始 推 文 数 据 集 了 。 如 果 你 想 要 
重建 本 音 使 用 的 数据 集 , 那么 你 可 以 在 本 书 附带 的 代码 包 中 找到 它 。 加 载 这 个 数据 集 并 不 难 ， 只 6 
是 要 花费 一 些 时 间 Oo 


打开 一 个 新 的 Jupyter Notebook， 像 之 前 一 样 设置 好 数据 集 、 标 注 和 推 文 D。 我 调整 了 此 处 
的 文件 名 ， 以 确保 不 会 覆盖 之 前 采集 的 数据 集 。 不 过 你 如 果 确 实 想 要 覆盖 之 前 的 数据 集 ， 也 可 以 
改 回去 。 







































































代码 如 下 。 

import os 

tweet_filename = os.path.join(os.path.expanduser ("~"), "Data", "twitter", 
"replicable python tweets.json") 

labels_filename = os.path.join(os.path.expanduser("~"), "Data", "twitter", 
"replicable python classes.json") 

replicable dataset = os.path.join(os.path.expanduser ("~"), "Data", 

"twitter", "replicable dataset.json") 


接 下 来 用 json 库 加 载 文件 中 的 推 文 ID。 


import json 
with open(replicable dataset) as inf: 
tweet_ids = json.load (inf) 


保存 标注 很 容易 。 我 们 只 要 迭代 数据 集 并 且 提 取出 推 文 站 。 仅 两 行 代码 就 可 以 完成 打开 文 
件 、 保 存 推 文 的 操作 。 然 而 , 我们 不 能 保证 之 后 还 能 采集 到 之 前 的 全 部 推 文 〈 例如 在 数据 集 采 集 
完成 之 后 ， 某 些 推 文 被 设置 为 私密 )。 这样 一 来 ， 标 注 和 推 文 数据 顺序 就 不 匹配 了 。 举 个 例子 ， 
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我 在 数据 集 采 集 完成 仅仅 一 天 以 后 尝试 重建 数据 集 , 其 中 就 缺失 了 两 条 推 文 (可 能 是 被 推 文 作者 
删除 或 设置 为 私密 了 )。 鉴 于 此 ， 我 们 要 按 需 输出 标注 。 

首先 ， 创 建 一 个 空 的 actual_labels 列表 ， 用 来 存储 那些 从 Twitter 中 实际 恢复 出 来 的 推 
文 的 标注 。 然 后 ,创建 一 个 用 于 映射 推 文 ID 和 其 标注 的 字典 。 代 码 如 下 。 


actual_labels 
label_mapping 


接 下 来 ,创建 到 Twitter 服务 器 的 链接 ， 以 采集 相应 的 推 文 数据 。 这 个 过 程 会 有 些 漫长 。 导 
入 我 们 之 前 用 过 的 twitter 库 ， 创 建 授权 令 牌 ， 然 后 用 它 创建 twitter 对 象 。 


import twitter 








[] 
dict (tweet_ids) 











Consumer_key = "<Your Consumer Key Here>" 

consumer. .secret = "<Your Consumer Secret Hereé>" 
access_token = "<Your Access Token Here>" 

access_token_ secret = "<Your Access Token Secret Here>" 


authorization = twitter.OAuth(access_token，access_token_secret， 
consumer_key, consumer_secret) 
t = twitter.Twitter(auth=authorization) 


然后 ， 迭 代 每 个 推 文 ID ， 并 在 Twitter 上 查询 以 恢复 原始 推 文 数据 。Twitter 的 API 有 一 个 优 
秀 的 特性 , 那 就 是 允许 我 们 一 次 性 查询 100 条 推 文 。 这 个 特性 大 幅 减少 了 API 的 调用 次 数 。 有 趣 
的 是 ， 从 Twitter 的 视角 来 看 ， 查 询 1 条 推 文 和 100 条 推 文 的 调用 数量 是 相同 的 ， 都 是 单 次 查询 


请 求 。 


下 面 的 代码 将 以 每 100 条 为 一 组 迭代 推 文 数据 集 ， 拼 接 每 组 中 的 推 文 ID ， 并 采集 各 条 推 文 
的 数据 。 


all_ids = [tweet_iqd for tweet_id, label in tweet_ids] 
with openl(tweet_filename, 'a') as output_file: 
# 我 们 一 次 可 以 向 Twitter 查询 100 条 推 文 ， 这 会 节省 查询 时 间 
for start_index in range(0, lenl(all ids), 100): 
id_string = ",".join(str(i) for i in all_ ids[start_ index:start_ index+100]) 
search results = t.statuses.lookup(_id=id string) 
for tweet in search results: 
if 'text' in tweet: 
# 判定 推 文 有 效 则 把 推 文保 存 到 文件 
output_file.write(json.dumps (tweet)) 
output_file.write("\n\n") 
actual_labels.append(label mapping[tweet['id']]) 


这 上段 代码 会 检查 每 条 推 文 是 否 有 效 。 如 果 是 , 则 将 其 保存 到 文件 中 。 最 后 一 步 是 保存 上 述 代 
码 产 出 的 标注 信息 。 


with open(labels_filename, 'w') as outf: 
json.dump (actual_labels, outf) 
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6.3 ”文本 转换 器 
既然 我 们 有 了 数据 集 ， 那 么 要 怎样 利用 这 份 数据 集 执行 数据 挖掘 实验 呢 ? 


像 图 书 、 论 文 、 网 站 、 手 稿 、 编 程 代码 以 及 其 他 形式 的 书面 表达 都 是 基于 文本 的 数据 集 。 迄 
今 为 止 , 我 们 所 接触 的 算法 都 是 处 理 数值 特征 或 者 分 类 特征 的 。 那么 问题 来 了 ,怎样 把 文本 转换 
成 算法 可 以 处 理 的 形式 呢 ? 可 供 使 用 的 度量 方法 有 很 多 。 


例如 , 通过 计算 平均 词 长 和 平均 名 长 可 以 度量 文档 的 可 读 性 。 不 过 我 们 也 可 以 提取 出 很 多 其 
他 的 特征 类 型 ， 比 如 下 面 我 们 会 关注 的 词 的 出 现 次 数 。 

































































6.3.1 词 袋 模型 


处 理 文 本 最 简单 也 是 最 高 效 的 模型 之 一 就 是 统计 数据 集中 每 个 词 出 现 的 次 数 。 创 建 一 个 和 矩 
阵 , 使 其 中 的 各 行 表 示 数 据 集 中 的 文档 ,各 列表 示 词 。 和 矩阵 中 的 各 个 元 素 就 是 文档 中 的 词 频 。 这 
就 是 词 袋 模型 ( bag-of-words model )。 


下 面 这 段 文字 摘自 托 尔 金 (JR.R. Tolkien ) 的 《 魔 戒 》 













































































Three Rings for the Elven-kings under the sky, 
Seven for the Dwarf-lords in halls of stone, 
Nine for Mortal Men, doomed to die, 
One for the Dark Lord on his dark throne 
In the Land of Mordor where the Shadows lie. 
One Ring to rule them all, One Ring to find them, 
One Ring to bring them all and in the darkness bind them. 
In the Land of Mordor where the Shadows lie. 


— The Lord of The Rings 


单词 the 在 选 文 中 出 现 了 9 次 之 多 。 单词 in、for、to 和 one 各 出 现 了 4 次 。 单 词 ring 和 of 
各 出 现 了 3 次 。 

我 们 可 以 通过 选取 一 份 单词 的 子 集 并 计算 词 频 ， 来 从 这 段 选 文中 创建 一 个 数据 集 ， 如 表 6-1 
所 示 。 











单词 the one ring to 





词 频 9 4 3 4 
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要 计算 单 份 文档 中 所 有 单词 的 词 频 ， 可 以 使 用 counter 类 。 在 计算 词 频 之 前 ， 通 常 要 把 所 
有 字母 转换 为 小 写 形式 。 我 们 在 字符 串 创建 时 就 这 样 处 理 。 代 码 如 下 。 
s = """Three Rings for the Elven-kings under the sky, Seven for the Dwarf 
lords in halls of stone, Nine for Mortal Men, doomed to die, One for the 
Dark Lord on his dark throne In the Land of Mordor where the Shadows lie. 
One Ring to rule them all, One Ring to find them, One Ring to bring them 
all and in the darkness bind them. In the Land of Mordor where the Shadows 
lie. """ .LIower() 
words = s.split() 
from collections import Counter 
C = Counter (words) 
print (c.most_common (5)) 


打印 print (c.most_common (5) ) 可 以 输出 前 $ 位 出 现 最 频繁 的 单词 。 只 输出 前 5 位 并 不 
能 体现 出 单词 间 的 频率 差异 ， 因 为 有 相当 多 的 单词 并 列 排名 第 5 位 。 


词 袋 模型 主要 分 为 4 种 ， 实 践 中 还 会 有 许多 变 体 和 调整 。 


口 第 一 种 像 上 例 中 这 样 ， 使 用 原始 词 频 。 未 归 一 化 的 数据 对 这 种 模型 很 不 利 。 尽 管 单词 the 
的 出 现 没 什么 重要 意义 ,但 它 在 总 体 中 高 频 出 现 ( 对 方差 贡献 大 )， 会 掩盖 低频 率 ( 对 方 
差 贡 献 小 ) 的 词 。 

口 第 二 种 模型 采用 归 一 化 的 词 频 , 使 每 份 文档 中 的 词 频 之 和 为 1。 这 样 一 来 ,我们 无 须 考虑 

文档 长 度 的 影响 。 尽 管 这 种 方法 的 效果 要 好 得 多 ,但 是 其 中 还 存在 低频 词 被 掩盖 的 问题 。 

口 第 三 种 则 直接 使 用 二 值 特征 ， 即 如 果 出 现 某 词 则 为 1， 反之 则 为 0。 本 章 就 会 用 这 种 二 值 

形式 。 

口 第 四 种 模型 采用 另 一 种 归 一 化 方法 , 叫 作 词 频 - 逆 文 档 频 率 ( tf-idf, term frequency-inverse 
document frequency ) 方法 。 它 可 能 更 受 欢 迎 。 这 是 一 种 带 权 重 的 方法 。 首 先 ， 把 词 数 
( term count ) 归 一 化 为 词 频 ( tf，term frequency )。 然 后 ， 将 其 除 以 语料库 中 出 现 该 词 的 
文档 数量 。 在 第 10 章 中 ， 我 们 就 会 用 到 ta-iaf () 方 法 。 










































































6.3.2 ”1 元 语法 特征 

n 元 语法 (n-gram ) 模型 就 是 标准 词 袋 模型 的 一 种 变 体 。n 元 语法 模型 弥补 了 词 袋 模型 在 理 
解 上 下 文 方面 的 不 足 。 由 于 词 袋 模型 只 会 为 单词 本 身 计数 ， 因 而 当 把 如 United States 这 样 的 常见 
词组 拆 分 成 单词 处 理 时 ， 会 丢掉 其 在 句子 中 的 应 有 含义 。 

有 的 算法 可 以 读 取 并 解析 句子 , 生成 树 形 数据 结构 ， 以 形成 单词 内 涵 意 思 的 精准 表达 。 不 幸 
的 是 ， 这 种 算法 计算 成 本 高 晶 ， 不 适用 于 大 型 数据 集 。 

n 元 语法 模型 在 理解 上 下 文 与 计算 复杂 度 之 间 取 得 了 平衡 。 它 能 比 词 袋 模型 更 好 地 理解 上 下 
文 ， 却 只 稍微 增加 了 计算 成 本 。 
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hn 元 语法 是 句子 中 n 个 连续 、 重 车 的 标记 (token ) “的 子 序 列 。 在 本 章 的 实验 中 ,我们 将 使 用 
单词 元 语法 (word n-gram )， 也 就 是 单词 标记 的 n 元 语法 。n 元 语法 的 单词 计数 方法 与 词 袋 模型 
相同 , 只 是 它 会 把 n 元 语法 形式 的 单词 放 入 袋 中 。 特定 的 n 元 语法 出 现在 给 定 文档 中 的 次 数 会 被 作 
为 数据 集 的 元 素 值 。 



































nn 的 值 是 可 交 的 参数 。 对 于 英语 而 言 ，n 的 初始 取 值 在 2 到 5 之 间 比 较 合 适 。 不 
过 ， 菜 些 应 用 场景 可 能 需要 更 高 的 n 值 。 如 果 取 了 太 高 的 n 值 ， 那么 由 于 这 种 情 

GO 况 下 的 h 元 语法 不 太 可 能 同时 出 现在 多 份 文档 中 ， 因 而 返回 的 数据 集会 比较 稀 
足 。 而 如 果 取 nn 值 为 1， 其 结果 就 会 跟 词 袋 模型 一 样 。 


以 n=3 为 例 ， 我 们 提取 下 面 这 条 引文 的 前 几 个 元 语法 。 


Always look on the bright side of life 


J A 


第 1 个 n 元 语法 (三 元 ) 是 Always look on， 第 2 个 是 look on the， 第 3 个 是 on the bright。 
如 你 所 见 ， 每 个 元 语法 都 覆盖 了 3 个 单词 ,并且 nn 元 语法 相互 之 间 有 重 炙 。 比 起 单纯 提取 单词 
n 元 语法 有 很 多 优势 。 作 为 一 种 简单 的 概念 ， 它 考虑 了 词语 本 身 的 语 境 ， 引 入 了 单词 的 上 下 文 ， 
用 可 计算 的 方法 去 理解 自然 语言 ， 并 且 计 算 成 本 不 高 。 


由 于 同样 的 单词 n 元 语法 不 太 可 能 出 现 两 次 在 推 文 这 样 的 短小 文档 中 尤其 )， 因 而 n 元 语 
法 就 有 一 个 劣势 : 其 返回 的 结果 和 矩阵 会 更 稀 玖 。 特 别 是 在 社交 媒体 之 类 的 短小 文档 中 ,除非 是 转 
推 (retweet )， 同 样 的 单词 n 元 语法 不 会 出 现在 太 多 不 同 推 文中 。 不 过 在 篇 幅 较 长 的 文档 中 ， 单 
词 n 元 语法 在 大 多 数 应 用 场景 下 相当 有 效 。 在 文本 文档 中 还 可 以 使 用 男 一 种 形式 的 n 元 语法 , 那 

































































就 是 字符 n 元 语法 ( character n-gram )。 尽 管 有 这 样 的 缺陷 ， 然 而 你 很 快 就 会 看 出 ， 单 词 n 元 语 
法 在 实践 中 相当 有 效 。 

















尽管 字符 n 元 语法 在 计算 上 有 很 多 选择 , 但 这 里 我 们 简单 地 采用 字符 的 集合 ,而 不 是 单词 的 
合 。 这 样 的 模型 不 仅 可 以 帮助 检查 单词 中 的 拼写 错误 ， 对 分 类 还 有 其 他 助 益 。 本 章 中 , 我 们 会 
测试 字符 n 元 语法 。 在 第 9 章 你 会 再 次 见 到 字符 n 元 语法 的 身影。 








6.3.3 ”其 他 文本 特征 

文本 中 还 能 提取 出 其 他 的 特征 ， 其 中 就 包括 句法 特征 ， 比 如 句子 中 特定 单词 的 用 法 。 在 数据 
挖掘 中 还 会 经 常用 到 词性 来 理解 文本 的 含义 。 本 书 中 不 会 拓展 介绍 这 些 特 征 类 型 。 如果 你 对 文本 
特征 感 兴趣 ， 想 要 了 解 更 多 ， 我 推荐 阅读 Jacob Perkins 所 作 的 Python 3 Text Processing with NLTK 
3 Cookbook， 这 本 书 由 Packt 出 版 社 发 行 。 


Python 中 有 许多 库 可 以 参与 处 理 文本 数据 。 其 中 最 为 我 们 所 熟知 的 就 是 自然 语言 工具 包 

















四“ 标记”(token ) 就 是 分 词 器 ( tokenizer ) 的 “ 词 ”。 除 词语 外 ,“ 词 ”还 包括 符号 。 一 一 译 者 注 
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(CNLIK，Natrual Language Toolkit )。scikit-learn 库 中 还 有 一 个 countVectorizetr 类 ， 也 可 
以 执行 类 似 的 操作 。 你 也 可 以 查看 一 下 它 〈 第 9 章 就 会 用 到 它 )。NLTK 还 支持 由 分 词 和 词性 标 
注 (区 分 一 个 单词 是 名 词 、 动 词 还 是 别 的 词性 ) 的 特征 。 

这 里 我 们 要 用 到 的 库 叫 作 spaCy， 它 完全 是 为 快速 旦 可 靠 的 自然 语言 处 理 需求 而 设计 的 。 尽 
管 没 有 NLTK 那么 出 名 , 但 其 流行 度 也 在 迅速 上 升 中 。 相 比 NLTK 而 言 , 它 虽 然 简 化 了 一 些 决策 ， 
但 其 语法 也 稍微 复杂 了 一 些 。 


















































我 建议 在 生产 系统 中 使 用 spaCy， 因 为 它 比 NLTK 运行 速度 更 快 。NLTK 是 为 教 
学 设计 的 , 而 spaCy 是 为 生产 环境 设计 的 。 由 于 它们 的 语法 不 同 ， 因 而 将 代码 从 

时 二 者 中 的 一 个 迁移 到 另 一 个 十 分 困难 ,如 果 你 不 想 在 实验 中 涉及 不 同 的 自然 语言 
处 理 库 ， 那 么 我 建议 你 直接 用 spaCy。 


6.4 ”朴素 贝 叶 斯 

朴素 贝 叶 斯 是 一 个 概率 模型 。 顾名思义 , 它 基于 贝 叶 斯 统计 的 朴素 解释 。 尽管 只 是 朴素 解释 ， 
但 这 个 方法 饱 经 检验 ,表现 出 色 。 得 益 于 这 种 村 素 解释 , 这 个 算法 运行 速度 相当 快 。 它 能 在 不 同 
的 特征 类 型 和 特征 格式 下 完成 分 类 任务 。 不 过 ， 本 章 只 关注 词 袋 模型 中 的 二 值 特征 。 





















































6.4.1 “理解 贝 叶 斯 定理 


大 多 数 人 的 统计 学 学 习 是 从 频率 学 派 方法 ( frequientist approach ) 开始 的 。 在 使 用 频率 学 派 
方法 时 ,我 们 假定 数据 服从 某 种 概率 分 布 ， 旨 在 确定 这 种 概率 分 布 的 参数 。 然 而 ， 这 种 情况 下 ， 
我 们 也 假定 这 些 参数 是 固定 的 〈 这 可 能 不 正确 )。 我 们 用 模型 来 描述 数据 ， 甚 至 通过 这 种 方法 来 
测试 数据 是 否 与 模型 匹配 。 


相反 ， 贝 叶 斯 统计 模仿 的 是 人 ( 至 少 是 非 频率 学 派 的 统计 学 家 ) 的 思维 方式 。 我 们 既然 已 经 
有 了 一 些 数据 ,就 可 以 用 数据 更 新 模型 ,以 描述 事情 发 生 的 可 能 性 。 在 贝 叶 斯 统计 中 ,我 们 用 数 
据 来 描述 模型 ， 而 不 是 先 构建 模型 之 后 再 用 数据 去 验证 ( 这 是 频率 学 派 的 做 法 )。 

应 该 注意 , 频率 学 派 和 贝 叶 斯 学 派 所 提出 和 解决 的 问题 是 有 细微 差异 的 。 直 接 比较 两 者 不 见 

贝 叶 斯 定理 计算 的 是 概率 PC4IB)， 即 在 已 知事 件 8 发 生 的 情况 下 , 事件 4 发生 的 概率 。 大 多 
数 情况 下 ,8 是 已 观测 到 的 事件 ， 比 如 昨天 下 两 了 ,那么 4 就 是 对 今天 是 否 下 十 的 预测 。 对 于 数 
据 挖掘 中 的 分 类 预测 任务 而 言 ，B 通常 是 我 们 观测 到 该 样本 ， 而 4 则 是 样本 是 否 属于 这 个 类 别 
( 即 类 估计 )。 在 下 一 节 中 ， 我 们 会 展示 如 何在 数据 挖掘 中 运用 贝 叶 斯 定理 。 


贝 叶 斯 定理 可 以 用 如 下 公式 表示 。 
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P(B| A)P(A) 
P(B) 


举 一 个 例子 来 说 明 。 比 如 ， 我 们 需要 判断 包含 drugs 一 词 的 推 文 是 否 为 垃圾 推 文 。 这 源 于 我 
们 确信 ， 包 含 这 个 词 的 推 文 可 能 是 制药 公司 发 送 的 垃圾 推 文 。 


在 这 个 背景 下 ，4 是 事件 “ 推 文 为 垃圾 推 文 "。 我 们 可 以 直接 从 训练 数据 集中 计算 出 P(4)。 
它 是 垃圾 推 文 在 数据 集中 所 占 的 百分比 ， 即 先 验 信念 ( prior belief )。 如 果 在 我 们 的 数据 集中 ， 每 
100 条 推 文 就 有 30 条 垃圾 推 文 ， 那么 PC) 就 是 30/100 或 者 0.3。 


此 时 的 8 就 是 事件 “ 推 文 包含 drugs 一 词 ”。 同样 , 我们 可 以 计算 出 PLB)。 它 是 包含 drugs 一 词 
的 推 文 在 数据 集中 所 占 的 百分比 。 如 果 在 训练 数据 集中 ， 每 100 条 推 文 就 有 10 条 包含 drugs 一 词 ， 
那么 P(B) 就 是 10/100 或 0.1。 此 处 要 注意 ， 我 们 在 计算 这 个 概率 时 不 关心 推 文 是 否 为 垃圾 推 文 。 


P(B|4) 是 垃圾 推 文 包含 drugs 一 词 的 概率 。 这 个 值 也 可 以 很 容易 地 从 训练 数据 集中 计算 出 来 。 
在 数据 集中 找 出 所 有 的 垃圾 推 文 , 计算 其 中 包含 drugs 一 词 的 推 文 所 占 的 百分比 。 比 如 一 共有 30 
条 垃圾 推 文 ， 其 中 有 6 条 包含 drugs 一 词 ， 那 么 所 计算 出 的 P(B|4) 就 是 6/30 或 者 0.2。 


至 此 ， 我 们 就 可 以 用 贝 叶 斯 定理 计算 P(4|83) 了 。 它 是 包含 drugs 一 词 的 推 文 为 垃圾 推 文 的 概 
率 。 套 用 前 面 的 公式 ， 结 果 会 是 0.6。 这 个 值 的 意义 是 : 如 果 推 文中 包含 drugs 一 词 ， 那 么 这 条 
推 文 有 60% 的 概率 是 垃圾 推 文 。 

注意 前 面 这 个 例子 的 经 验 主义 性 质 一 一 我 们 直接 采纳 了 训练 数据 集中 的 证 据 , 而 

6 不 是 假定 服从 预定 的 概率 分 布 。 相 反 ， 在 参照 频率 学 派 的 观点 计算 类 似 公式 时 ， 

就 要 为 推 文中 所 包含 词 的 概率 提供 概率 分 布 。 


P(AIB)= 



























































































































































6.4.2 ”朴素 贝 叶 斯 算法 


回顾 贝 叶 斯 定理 的 公式 , 我 们 可 以 用 这 个 公式 计算 给 定 样本 属于 给 定 类 别 的 概率 , 把 它 作为 
一 种 分 类 算法 来 使 用 。 


我 们 定义 C 为 给 定 的 类 别 , D 为 数据 集中 的 一 个 样本 ,以 构造 贝 叶 斯 定理 的 要 素 , 这 同样 也 
是 朴素 贝 叶 斯 算法 的 要 素 。 朴素 贝 叶 斯 算法 是 一 种 分 类 算法 , 它 运用 贝 叶 斯 定理 来 计算 新 数据 样 
本 属于 特定 类 别 的 概率 。 

P(D) 是 给 定数 据 样本 的 概率 。 因 为 样本 体现 的 是 不 同 特征 的 复杂 交互 作用 , 所 以 这 个 概率 的 
计算 很 困难 。 幸 运 的 是 ， 这 个 概率 对 于 所 有 类 别 而 言 都 是 同一 个 值 。 因 此 ， 我 们 不 需要 计算 它 ， 
而 只 需要 在 最 后 一 步 比 较 相 对 值 。 


P(DIO) 是 数据 点 属于 给 定 类 别 的 概率 。 由 于 特征 纷 杂 繁多 ， 因 而 这 个 概率 难以 计算 。 然 而 ， 
这 里 就 要 用 到 朴素 贝 叶 斯 算法 中 “朴素 ”的 部 分 了 。 我 们 朴素 地 假定 各 个 特征 相互 独立 。 这 样 一 
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来 ,我 们 就 可 以 计算 D|、D,、D; 等 各 个 特征 的 概率 ， 而 不 是 完整 的 概率 PLDIC)。 然 后 ， 我 们 只 
要 把 这 些 特征 的 概率 相 乘 即 可 。 


P(D|C)=P(D,|C)xP(D, |C)x.…xP(D, |C) 


计算 二 值 特征 的 这 些 概 率 相对 容易 些 , 只 需 计 算 二 值 特征 的 值 在 数据 集中 出 现 次 数 的 百分比 
即 可 o 








Cat 











相反 ,如 果 在 此 处 用 非 朴 素 版 本 的 贝 叶 斯 算法 进行 计算 , 就 需要 为 每 个 类 别 计算 
(外 不 同 特征 间 的 相关 性 。 在 最 好 的 情况 下 , 这 样 的 计算 是 不 可 行 的 , 而 如 果 没 有 海 
量 数据 支撑 或 合适 的 语言 分 析 模 型 ， 这 样 的 计算 则 几乎 是 不 可 能 的 。 
自 此 之 后 , 算法 的 实现 就 非常 易于 理解 了 。 我 们 为 每 个 可 能 的 类 别 计算 P(CID), 且 完 全 忽略 
PLD) 项 ， 然 后 选取 概率 最 高 的 类 别 。 因 为 各 个 类 别 中 的 P(D) 项 是 一 致 的 ， 所 以 忽略 它 对 最 终 的 
预测 结果 不 会 产生 任何 影响 。 





6.4.3 ”原理 展示 
举 个 例子 ,假设 这 是 我 们 数据 集中 某 个 样本 的 二 值 特征 值 : [1, 0, 0, 1]。 


我 们 的 训练 数据 集中 包含 2 个 类 别 ， 而 75% 的 样本 属于 类 别 0，25% 的 样本 属于 类 别 1。 特 
征 值 对 于 各 个 类 别 的 似 然 函 数值 (likelihood ) "如 下 。 


对 于 类 别 0: [0.3, 0.4, 0.4, 0.7] 














对 于 类 别 1: [0.7, 0.3, 0.4, 0.9] 
可 以 这 样 理解 : 第 1 个 特征 值 在 类 别 0 的 30% 的 样本 中 为 1, 在 类 别 1 的 70% 的 样本 中 为 1。 
现在 我 们 就 可 以 计算 样本 属于 类 别 0 的 概率 了 。P(C=0)=0.75 代表 类 别 为 0 的 概率 。 再 次 强 
调 ， 在 朴素 贝 叶 斯 算法 中 不 需要 PLD)， 而 其 公式 也 移 除 了 这 一 项 。 我 们 来 看 一 下 计算 过 程 。 


P(DIC=0)=P(D, |C=0)xP(D,|C=0)xP(D,|C=0)xP(D,|C=0) 
=0.3x0.6x0.6x0.7 
=0.0756 





















































样本 中 第 2 个 特征 和 第 3 个 特征 的 值 是 0， 那 么 其 对 应 的 概率 值 就 是 0.6。 因 为 
i 给 出 的 似 然 函 数值 是 当 特征 值 为 1 时 的 值 , 所 以 特征 值 为 0 就 是 对 立 事件 , 因此 
值 要 这 样 计算 : P(0) =1- P(1) 。 











@ 似 然 函 数 ( likelihood function ) 是 统计 模型 中 参数 的 函数 ， 表 示 模 型 参数 中 的 似 然 性 。 似 然 性 是 用 已 知 观测 结果 
对 统计 模型 的 参数 进行 估计 。 对 于 类 别 0 而 言 , 第 1 个 似 然 函数 就 是 工 (样本 属于 类 别 0 第 1 个 特征 的 值 为 1), 以 
此 类 推 。 一 一 译 者 注 
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下 面 就 可 以 计算 数据 点 属于 该 类 别 的 概率 了 。 计 算 过 程 如 下 所 示 。 
P(C=0|D)=P(C=0)P(D|IC=0)=0.75x0.0756 = 0.0567 
同样 ， 可 以 计算 出 样本 属于 类 别 1 的 概率 。 


P(DIC=1)=P(D IC=D)xP(D,|C=D)xP(D,|C=1)xP(D,|C=)) 
=0.7x0.7x0.6x0.9 
= 0.2646 
P(C=1|D)=P(C=DP(DIC=1) 
=0.25x0.2646 
= 0.06615 








通常 P(C=0ID)+HP(C=1ID) 应 该 等 于 1。 人 毕竟 类 别 只 有 两 种 可 能 选项 。 尽 管 如 此 ， 但 
是 因为 我 们 的 公式 中 并 没有 包含 对 PLD) 的 计算 ,所 以 这 两 个 概率 的 和 也 就 不 是 1。 
为 P(C =1|D) 的 值 较 P(C =0|D) 更 大 ， 所 以 该 数据 点 就 该 分 类 为 类 别 1。 在 公式 推导 中 ， 
你 也 许 就 已 经 开始 猜测 分 类 结果 了 。 你 会 感到 一 丝 惊 喜 ， 因 为 最 终结 果 会 与 你 的 猜测 吻合 。 毕 况 
我 们 计算 出 类 别 1 的 P(D1C) 是 相当 高 的 。 这 是 由 于 我 们 引入 的 先 验 信念 就 是 大 多 数 样 本 属于 类 
别 0。 
如 果 两 个 类 别 中 的 样本 数量 相同 ， 那 么 所 计算 出 的 概率 就 会 与 本 例 大 相 径 庭 。 你 可 以 把 
P(C=0) 和 P(C=1) 都 改 为 0.5， 即 两 个 类 别 的 样本 数量 相同 ， 然 后 尝试 重新 计算 这 个 概率 。 


6.5 ”朴素 贝 叶 斯 的 应 用 
现在 我 们 可 以 创建 一 条 流水 线 ， 使 其 在 读 取 推 文 后 ， 仅 根据 内 容 判 断 推 文 是 否 有 相关 意义 。 


我 们 会 用 spaCy 提取 单词 。spaCy 是 一 个 用 来 进行 自然 语言 分 析 的 库 ， 其 中 包含 大 量 的 相关 
工具 。 在 后 面 章节 中 ， 你 还 会 见 到 spaCy 的 身影 。 



























































要 在 计算 机 上 安装 spaCy， 请 用 bip 执行: pip install spacy。 如 果 这 个 命 
令 没 有 奏效 ， 请 参看 spaCy 的 安装 指南 ， 查 找 其 中 关于 你 现在 所 用 平台 的 部 分 。 


接 下 来 ,创建 一 条 流水 线 以 提取 单词 特征 ， 并 用 朴素 贝 叶 斯 为 推 文 分 类 。 这 个 流水 线 包 括 下 
列 步 又 。 


口 用 spaCy 分 词 需 把 原始 文本 文档 转换 成 一 个 计数 字典 。 

口 用 scikit-learn 中 的 DictVectorizer 转换 器 ， 把 这 些 字 典 转 换 成 向 量 和 矩阵 (vector 
matrix )。 对 于 朴素 贝 叶 斯 分 类 器 读 取 第 一 步 所 提取 的 特征 值 而 言 ， 这 一 步 是 十 分 必要 的 。 
口 仿照 上 一 章 ， 训 练 朴 素 贝 叶 斯 分 类 器 。 
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这 时 就 需要 创建 一 份 新 的 笔记 本 ( 也 是 本 章 最 后 一 份 笔记 本 )。 这 个 名 为 ch6_classify_ 
twitter 的 笔记 本 将 被 用 来 执行 分 类 任务 。 





6.5.1 提取 单词 计数 


我 们 仍 要 在 流水 线 内 用 spaCy 提取 单词 计数 ， 不 过 spaCy 并 不 符合 我 们 的 转换 器 接口 要 求 ， 
因此 我 们 需要 自 己 实 现 一 个 基本 的 转换 器 ， 以 满足 fit 和 transform 方法 的 需求 。 这 样 一 来 ， 
就 能 在 流水 线 中 使 用 它 了 。 

















首先 , 设置 转换 器 类 。 因 为 这 个 转换 器 只 是 从 文档 中 提取 单词 , 所 以 fit () 方 法 不 需要 做 任 
何事 情 。 尽 管 fit () 方 法 上 只 是 一 个 空隙 数 ， 不 过 为 了 遵循 scikit-learn 的 API 要 求 ， 它 要 返 
回转 换 器 对 象 本 身 ( self )。 








这 个 转换 过 程 有 一 点 点 复杂 : 从 所 有 文档 中 提取 出 每 个 单词 ， 如 果 在 文档 中 发 现 新 闻 ， 就 标 
记 为 True。 这 里 只 用 二 值 特征 来 表示 单词 是 否 出 现在 文档 中 , 如 果 出 现 特征 值 就 是 True, 反之 
则 是 False。 如 果 要 统计 单词 出 现 的 频率 ， 就 要 像 前 儿童 中 一 样 ， 创 建 一 个 字典 。 

让 我 们 来 看 一 下 代码 。 


import spacy 
from sklearn.base import TransformerMixin 








# 创建 spaCy 语法 分 析 器 
nlp = spacy.load('en') 


class BagOfWords (TransformerMixin): 
def fit(self, XxX, y=None): 
return self 


def transform(self, xX): 


results = [] 
for document in XxX: 
FOW 


for word in list(nlp(document, tag=False, parse=False, 
entity=False)): 
if len(word.text.strip()): # 如 果 单 词 是 空白 则 忽略 
row[word.text] = True 
results.append (row) 
return results 


其 结果 是 一 个 内 容 为 字典 的 列表 。 列 表 中 第 1 个 字典 是 第 1 条 推 文中 的 单词 ， 以 此 类 推 。 
个 字典 都 以 单词 为 键 ， 其 值 都 是 True， 表 示 文 档 中 发 现 了 这 个 单词 。 字 典 中 没有 的 单词 会 被 假 
定 为 没有 在 推 文中 出 现 。 虽 然 显 式 地 将 单词 没有 出 现 声 明 为 False 是 可 行 的 ， 但 是 这 么 做 会 占 
用 更 多 空间 。 
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6.5.2 ”把 字典 转换 成 矩阵 


接 下 来 ， 把 上 一 步 产生 的 字典 转换 成 矩阵 ， 以 供 分 类 器 使 用 。 用 scikit-learn 中 提供 的 
DictVectorizer 来 实现 这 个 需求 相当 简单 。 


DictVectorizer 接受 字典 的 列表 作为 输入 ,然后 把 列表 中 的 字典 转换 成 矩阵 。 和 矩阵 中 的 各 个 
特征 就 是 字典 中 的 各 个 键 ， 和 矩阵 中 的 各 个 值 对 应 各 个 样本 中 的 特征 是 否 在 推 文中 出 现 。 虽 然 在 代码 
中 创建 字典 很 容易 ， 但 许多 数据 挖掘 算法 的 实现 更 倾向 于 使 用 矩阵 。 这 就 是 DictVectorizer 的 实 
用 意义 所 在 。 


在 我 们 的 数据 集中 , 每 个 字典 都 以 单词 为 键 , 而 且 只 有 推 文中 确实 出 现 的 单词 才 会 被 存放 到 
字典 中 。 因 此 , 我 们 的 矩阵 将 以 每 个 单词 为 特征 ， 而 矩阵 元 素 中 的 True 则 表示 相应 单词 确实 出 
现在 推 文中 。 


用 下 面 的 命令 导入 DictVectorizer 后 ， 即 可 使 用 它 。 


from sklearn.feature extraction import DictVectorizer 



































6.5.3 ”组装 成 型 

最 后 ,我 们 要 设置 一 个 分 类 器 。 在 本 章 中 ， 这 会 是 一 个 朴素 贝 叶 斯 分 类 器 。 因 为 我 们 的 数据 集 
中 只 有 二 值 特征 ， 所 以 就 要 用 专门 为 二 值 特征 设计 的 BernoulliNB 分 类 髓 。 与 DictVectorizer 
一 样 ， 它 使 用 起 来 非常 简单 。 我 们 只 需 在 导入 它 后 将 其 加 入 到 流水 线 中 即 可 。 

from sklearn.naive bayes import BernoulliNB 

现在 就 要 把 所 有 部 件 组 装 起 来 了 ! 在 Jupyter Notebook 中 设置 好 文件 名 ， 然 后 加 载 数 据 集 和 
我 们 之 前 写 好 的 类 。 我 们 需要 设置 两 个 文件 名 : 推 文本 身 ( 而 不 是 推 文 DD ) 和 我 们 对 推 文 的 标 
注 。 代 码 如 下 。 


import os 



































input_filename = os.path.join(os.path.expanduser ("~"), "Data", "twitter", 
"Python_ tweets.json") 
labels_filename = os.path.join(os.path.expanduser("~"), "Data", "twitter", 


"python_classes.json") 


下 面 ， 加 载 推 文本 身 。 因 为 我 们 只 关心 推 文 的 内 容 ， 所 以 我 们 提取 出 文本 值 ， 并 只 存储 这 个 
文本 值 。 代 码 如 下 。 


import json 








tweets = [] 
with open(input_filename) as inf: 
for’ Tine im. inf: 
if len(line.strip()) == 0: continue 
tweets.append(json.loads (line)['text']) 
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with openl(labels_filename) as inf: 
labels = json.load (inf) 
# 确保 只 加 载 已 分 类 的 推 文 
tweets = tweets[:len(labels)] 


现在 ,创建 一 条 流水 线 ， 把 之 前 的 所 有 部 件 都 组 合 到 一 起 。 这 个 流水 线 由 3 个 部 分 组 成 : 


(1) 我 们 之 前 创建 的 NLTKBOW 转换 器 ; 
(2) DictvVvectorizer 转换 器 ; 

(3) BernoulliNB 分 类 器 。 

代码 如 下 。 


from sklearn.pipeline import Pipeline 


























pipeline = Pipeline([('bag-of-words', BagOfWords()), 
('vectorizer', DictVectorizer()), 
('naive-bayes', BernoulliNB())]) 


我 们 差不多 可 以 运行 这 条 流水 线 了 。 我 们 会 把 这 条 流水 线 用 于 cross_val_score (之 前 已 
经 这 样 操作 了 很 多 次 )。 在 执行 数据 挖掘 任务 之 前 ， 我 们 要 引入 一 种 新 的 评估 指标 。 新 指标 比 我 
们 之 前 用 的 准确 率 指标 更 好 。 我 们 将 会 看 到 ， 当 数据 集中 各 个 分 类 的 样本 数量 有 差别 时 ,准确 率 
上 标 就 不 能 充分 评估 算法 性 能 了 。 








6.5.4 ”用 F1 score 评 估算 法 


在 选取 评估 指标 时 , 是否 适 用 于 当前 场景 总 是 一 个 重要 且 值 得 考虑 的 问题 。 准 确 
率 在 许多 场景 下 是 一 个 好 的 评估 指标 ,因为 它 不仅 易 于 理解 ,计算 起 来 也 很 简便 。 
但 是 准确 率 很 容易 造假 。 换 言 之 ， 在 很 多 场景 中 , 你 可 以 创建 出 准确 率 很 高 但 毫 
无 实用 价值 的 算法 。 


通常 ,在 我 们 的 推 文 数据 集中 , 有 50% 的 内 容 与 编程 语言 相关 , 而 男 50% 的 内 容 与 编程 语言 
无 关 ( 你 的 结果 可 能 会 有 所 不 同 )。 然 而 ， 很 多 数据 集中 并 不 会 有 这 样 均匀 (balanced ) 的 情况 。 


举 个 例子 ， 在 垃圾 邮件 过 滤器 接收 到 的 邮件 中 ，80% 的 邮件 可 能 是 垃圾 邮件 。 这 样 一 来 ， 虽 
然 一 个 把 所 有 邮件 都 标记 为 垃圾 邮件 的 过 滤器 显然 是 毫 无 实用 价值 的 ， 但 它 的 准确 率 高 达 80%! 


为 了 避免 这 种 问题 ， 我 们 可 以 采用 其 他 的 评估 指标 。 最 常用 的 一 种 被 称 为 Fl score ( 也 称 为 
F-score 、F-measure， 该 术语 还 有 各 种 其 他 变 体 )。 


Fi score 的 定义 以 各 个 类 别 为 基础 ， 并 基于 精确 率 ( precision ) 和 召回 率 (recall ) 

种 两 个 概念 。 精确 率 是 被 预测 为 特定 类 别 的 所 有 样本 中 ,确实 属于 该 类 别 的 样本 所 
占 的 百分比 。 召 回 率 是 数据 集中 属于 某 个 类 别 的 所 有 样本 中 ,确实 被 分 类 为 该 类 
别 的 样本 所 占 的 百分比 。 
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在 我 们 的 应 用 场景 中 ， 我们 就 可 以 计算 “与 编程 语言 相关 ”和 “与 编程 语言 无 关 ” 这 两 个 类 
别 的 精确 率 和 召回 率 。 

计算 精确 率 就 是 要 解决 这 个 问题 : 在 所 有 被 预测 为 相关 的 推 文 中 ， 确 实 相关 的 推 文 所 占 百 分 
比 是 多 少 。 

同样 ， 召 回 率 的 计算 等 于 解决 这 个 问题 : 在 数据 集中 所 有 相关 的 推 文 里 ， 被 预测 为 相关 的 推 
文 所 占 百 分 之 多 少 。 

在 计算 出 精确 率 和 召回 率 后 ， 就 可 以 计算 Fi score 了 。Fi score 是 精确 率 和 召回 率 的 调和 平 
均 数 。 





2 precision x recall 





五 加 
precision + recall 
要 在 scikit-learn 中 使 用 Fi score, 只 需要 把 scoring 参数 设置 为 £1 即 可 ,默认 情况 下 ， 
这 样 做 会 返回 类 别 1 的 Fi score。 在 数据 集 上 运行 下 面 的 代码 即 可 。 
from sklearn.cross_validation import cross_val_score 
scores = cross val_score(pipeline, tweets, labels, scoring='f1') 
# 之 后 打印 输出 平均 分 数 : 


import numpy as np 
print ("Score: {:.3f}".format (np.mean(scores))) 


此 次 得 分 是 0.684, 这 意味 着 我 们 能 在 近 70% 的 情况 下 正确 判断 推 文中 的 Python 是 否 与 编程 
语言 相关 。 这 里 我 们 所 用 的 数据 集 只 有 300 条 推 文 。 

如 果 回 到 采集 数据 的 步骤 去 采集 更 多 数据 , 那么 你 会 发 现 这 个 分 数 还 能 提升 ! 要 记 住 : 数据 
集 的 变化 会 导致 最 后 得 分 的 变化 。 

































































人 通常 ， 数 据 集 规模 越 大 ， 其 结果 也 就 越 准确 。 但 情况 并 不 总 是 这 样 。 


6.6 ”从 模型 中 找 出 有 用 的 特征 
你 也 许 会 考虑 这 样 的 问题 : 什么 样 的 特征 才 是 判断 推 文 是 否 相 关 的 最 佳 特征 ?我 们 可 以 从 村 
素 贝 叶 斯 模型 中 提取 这 些 信息 ， 然 后 根据 朴素 贝 叶 斯 找 出 最 佳 的 单个 特征 。 
首先 ， 拟 合 新 模型 。 虽 然 cross_val_score 能 通过 交叉 验证 测试 数据 中 的 不 同 折 (fold ) 
得 出 模型 的 分 数 , 但 它 不 会 直接 给 出 训练 好 的 模型 本 身 。 为 了 创建 模型 ， 我 们 需要 用 推 文 拟 合流 
水 线 。 代 码 如 下 。 


model = Pipeline.fit(tweets，1Labels) 
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注意 ,因为 此 处 我 们 不 需要 评估 模型 ， 所 以 也 就 不 需要 小 心 翼 翼 地 把 数据 集 分 割 
为 训练 数据 集 和 测试 数据 集 两 个 部 分 。 不 过 在 把 这 些 特征 投入 实际 使 用 中 前 ,我 
(二 们 仍 要 在 分 割 好 的 测试 数据 集中 进行 评估 。 为 了 保证 论述 清晰 明了 , 这 里 跳 过 了 
分 割 数据 集 并 评估 模型 的 步骤 。 
在 流水 线 的 named_steps 属性 上 以 步骤 名 称 为 索引 进行 访问 , 即 可 得 到 各 个 单独 步 又。( 步 
又 名 称 是 我 们 在 创建 流水 线 对 象 时 自行 定义 的 。) 举 个 例子 , 我 们 可 以 这 样 取得 朴素 贝 叶 斯 模型 。 


nb = model.nameqd_ steps['naive-bayes'] 
feature_ probabilities = nb.feature_ log_ prob_ 


你 可 以 从 这 个 模型 中 提取 出 每 个 单词 的 概率 。 这些 概 率 是 以 对 数 概 率 ， 即 log(P(41|7)) 的 形式 
存储 的 ， 其 中 /是 给 定 特征 。 

之 所 以 要 用 对 数 概率 的 形式 存储 , 是 因为 概率 的 数值 实在 是 太 小 了 。 比 如 第 1 个 值 , -3.486， 
所 对 应 的 原始 值 比 0.03% 还 小 。 在 计算 这 种 数值 小 的 概率 时 ， 应 该 使 用 对 数 概率 ， 因 为 它 能 避免 
非常 小 的 数值 被 四 舍 五 和 为 0 的 下 溢 错 误 。 因为 这 些 概 率 以 后 会 相 乘 , 所 以 如 果 其 中 有 一 个 0 值 ， 
那么 最 后 的 结果 就 总 会 是 0! 无 论 如 何 ， 数值 之 间 体 现 的 关系 仍然 一 样 : 数值 越 大 ， 也 就 意味 着 
特征 越 有 用 。 


通过 给 对 数 概率 的 数组 排序 ,可 以 找 出 最 有 用 的 特征 。 因 为 我 们 要 按 递减 顺序 排序 , 所 以 把 
所 有 的 值 变 为 负数 。 代 码 如 下 。 


top_features = np.argsort (-nb.feature_log_prob_[1])[:50] 


上 面 的 代码 给 出 的 是 特征 的 索引 而 不 是 特征 的 值 ， 而 这 还 不 够 有 用 。 因 此 , 我 们 要 把 特征 索 
引 有 映射 到 实际 的 特征 值 中 。 这 一 步 的 关键 就 是 流水 线 中 的 DictVectorizer 步骤 ， 幸运 的 是 ， 
这 个 步骤 不 仅 创建 了 矩阵 ,还 记录 了 特征 的 映射 方式 。 这 让 我 们 可 以 找 出 对 应 不 同 列 的 特征 名 称 。 
我 们 可 以 从 流水 线 的 该 部 分 中 提取 特征 。 


dv = model.nameqd_ steps['vectorizer'] 


自 此 ,我 们 可 以 在 Dictvectorizer 的 feature_names_ 属 性 中 查找 并 打印 输出 前 几 位 特 

征 名 称 。 在 新 的 输入 框 中 键入 下 面 几 行 代码 并 运行 ， 就 可 以 打印 输出 前 几 位 特征 的 列表 。 

for i, feature_ index in enumerate(top_ features): 

print (i, dv.feature names_[feature index], 
np.exp (feature_probabilities[1] [feature_ index])) 

前 几 位 特征 包括 “:”“ 转 推 ”( RT，retweet )， 甚 至 还 有 “了 Python”。 根 据 我 们 采集 到 的 数据 ， 
这 些 特征 很 可 能 是 噪声 〈 虽然 在 编程 以 外 的 场景 中 冒号 并 不 常用 )。 采 集 更 多 的 数据 可 以 平滑 噪 
声带 来 的 问题 。 不 过 ， 通 过 浏览 此 列表 ， 我 们 找 出 了 许多 更 明显 的 编程 相关 特征 。 
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To OLO625 
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虽然 也 会 有 其 他 的 人 在 工作 语 境 下 使 用 Python 这 个 词 ， 比 如 自由 职业 的 控 蛇 人 也 会 有 这 样 
的 用 法 ， 但 他 们 很 少 使 用 Twitter。 因 此 ，Python 这 个 单词 很 可 能 是 指 编 程 语言 。 


最 后 一 个 特征 通常 以 这 种 形式 出 现 : 我 们 正在 为 这 一 职位 招聘 ( We’re looking for a candidate 
for this job )。 


留意 一 下 这 些 特征 ， 就 会 有 一 些 收获 。 我 们 可 以 训练 人 来 识别 这 些 推 文 ， 以 找 出 其 中 的 共性 
( 洞 彻 某 个 话题 ) 或 是 刨 除 没 有 意义 的 特征 。 例 如 RT 这 个 词 的 出 现 次 数 很 多 , 在 列表 中 排名 相当 
靠 前 , 但 这 是 Twitter 中 很 常见 的 一 个 短语 ， 表 示 转 推 (retweet )， 也 就 是 转发 别人 的 推 文 。 经 验 
丰富 的 人 会 从 列表 中 移 除 这 个 单词 ， 以 减少 小 规模 数据 集中 噪声 对 分 类 器 的 影响 。 



























































6.7 本章 小 结 


本 章 着 眼 于 文本 挖掘 ， 讨 论 了 如 何 从 文本 中 提取 特征 、 如 何 使 用 这 些 特征 ， 以 及 扩展 这 些 
特征 等 问题 。 在 这 个 过 程 中 ， 我 们 还 研究 了 推 文 的 语 境 ， 判 断 了 包含 单词 Python 的 推 文 是 否 涉 
及 编程 语言 Python。 我 们 从 一 个 基于 Web 的 API 上 下 载 推 文 数据 , 用 来 自流 行 微 博 网 站 Twitter 
的 推 文 构造 数据 集 。 我 们 还 直接 在 Jupyter Notebook 中 构建 了 一 个 表单 ， 用 于 给 推 文 数据 集 加 
标签 。 


我 们 也 关注 实验 的 可 重 现 性 。 虽 然 Twitter 不 允许 用 户 把 推 文 数据 集 副 本 发 送 给 其 他 人 ,但 
你 可 以 向 其 他 人 共享 推 文 ID。 这 样 我 们 就 能 创建 一 份 保存 了 推 文 ID 的 数据 集 ， 以 在 之 后 用 于 重 
建 原 始 数据 集 。 不 过 重建 并 不 总 能 获取 到 完整 的 推 文 数据 集 ， 因 为 在 推 文 ID 列表 创建 之 后 ， 某 
些 推 文 可 能 被 删除 了 。 


我 们 用 了 朴素 贝 叶 斯 分 类 器 来 执行 文本 分 类 。 这 个 分 类 需 基 于 贝 叶 斯 定理 , 用 数据 来 更 新 模 
型 ， 而 不 是 像 基于 频率 学 派 的 方法 那样 以 模型 为 先 。 朴 素 贝 叶 斯 算法 能 把 新 数据 和 先 验 信念 纳入 
到 模型 中 。 另 外 ,朴素 贝 叶 斯 算法 中 “朴素 ”的 部 分 让 我 们 可 以 只 简单 地 统计 频率 ， 而 无 须 处 理 
特征 间 的 复杂 关联 。 


我 们 提取 的 特征 是 单词 的 出 现 情况 ,， 即 某 个 单词 是 否 在 推 文中 出 现 。 虽 然 这 个 被 称 为 词 袋 的 
模型 抛弃 了 单词 出 现 位 置 的 信息 , 但 能 在 许多 数据 集中 取得 较 高 的 准确 率 。 此 处 我 们 构造 了 一 条 
能 把 词 袋 模型 和 朴素 贝 叶 斯 算法 结合 起 来 的 流水 线 , 该 流水 线 十 分 稳健 。 你 会 发 现 , 这 条 流水 线 
在 大 多 数 基于 文本 的 任务 中 能 取得 不 错 的 成 绩 。 在 尝试 更 高 级 的 模型 以 前 , 你 能 将 其 作为 一 条 不 
错 的 参考 基线 。 朴 素 贝 叶 斯 分 类 器 的 另 一 个 优势 是 无 须 配 置 任何 参数 ( 不 过 它 还 是 有 一 些 可 以 调 
整 的 参数 )。 
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要 扩展 本 章 的 工作 , 首先 要 采集 更 多 数据 。 虽 然 还 是 要 手动 给 推 文 分 类 , 但 你 可 以 利用 从 推 
文中 发 现 的 某 些 相似 性 来 简化 分 类 工作 。 比 如 在 数据 挖掘 研究 中 有 一 个 领域 , 叫 作 局 部 敏感 散 列 
(LSH，Locality Sensitive Hashes )， 这 个 方法 可 以 用 来 判断 两 条 推 文 是否 相 似 。 而 两 条 相似 的 推 
文 ， 可 能 是 关于 相同 的 主题 的 。 要 扩展 本 章 研究 ， 还 有 一 种 方法 ， 就 是 把 Twitter 的 用 户 历 史 推 
文 纳入 到 计算 公式 中 ， 即 假定 用 户 如 果 过 去 经 常 发 表 与 编程 语言 Python 相关 的 推 文 ， 那么 他 未 
来 的 推 文中 也 会 更 多 地 涉及 Python。 
























































在 下 一 章 中 ,我 们 将 要 探究 如 何 从 另 一 种 类 型 的 数据 中 提取 特征 。 这 个 类 型 叫 作 图 〈 graph， 
一 种 数据 结构 )， 而 提取 特征 的 目的 是 在 社交 媒体 中 推荐 用 户 可 能 会 关注 的 人 。 
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( graph ) 能 表示 许多 种 类 的 现象 。 在 在 线 社交 网 络 和 物 联网 (IoT，Internet ofThings ) 等 
领域 中 ， 图 是 不 可 或 缺 的 。 像 Facebook 这 样 的 大 型 社交 网 络 会 基于 图 运行 数据 分 析 实 验 ， 因 为 
在 图 挖掘 之 下 总 是 埋藏 着 丰厚 的 商业 利润 。 


社交 媒体 网 站 的 根基 在 于 用 户 参 与 度 。 没 有 活跃 的 信息 流 、 没 有 值得 关注 的 好 友 , 用 户 是 不 
会 参与 到 社交 媒体 中 来 的 。 相 反 , 用 户 拥有 的 好 友 越 多 ,关注 的 人 越 多 ， 参 与 度 就 越 高 ， 看 到 的 
广告 也 越 多 。 这 就 是 社交 媒体 网 站 的 巨额 利润 之 源 。 


本 章 关注 如 何在 图 中 定义 相似 度 ， 以 及 如 何在 数据 挖掘 中 使 用 图 。 需 要 再 次 强调 的 是 , 图 挖 
掘 的 模型 基于 现象 而 产生 。 我 们 还 会 了 解 一 些 关于 图 的 基本 概念 ， 比 如 子 图 ( sub-graph ) 和 连通 
分 量 (connected component )。 为 此 ， 本 章 的 内 容 将 会 涉及 聚 类 (cluster ) 分 析 。 第 10 章 会 深入 
探讨 聚 类 分 析 。 


本 章 包 括 如 下 主题 : 


口 在 数据 中 执行 聚 类 以 发 现 模式 ; 
口 加 载 之 前 实验 的 数据 集 ; 

口 从 Twitter 获取 关注 者 的 信息 ; 
口 创建 图 和 网 络 ; 

口 找 出 聚 类 分 析 需 要 的 子 图 。 


7.1 加 载 数据 集 

本 章 的 任务 是 根据 在 线 社交 网 络 中 的 共同 好 友 来 推荐 用 户 可 能 感 兴 趣 的 人 。 我们 的 逻辑 可 以 
概括 为 : 如 果 两 位 用 户 拥有 共同 好 友 ,我 们 就 认为 他 们 之 间 的 相似 度 很 高 ， 值 得 推荐 给 对 方 。 我 
们 所 能 推荐 的 人 数 是 有 限 的 ， 因 为 如 果 推 荐 关注 的 人 太 多 , 用户 就 会 对 此 失去 兴趣 。 因 此 ,我 们 
需要 找 出 能 吸引 用 户 的 好 友 ， 进 行 高 质量 推荐 。 

要 做 到 这 一 点 ， 可 以 用 上 一 章 中 的 消 歧 模型 筛选 出 讨论 编程 语言 Python 的 用 户 。 本 章 会 用 
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之 前 数据 挖掘 实验 的 结果 作为 另 一 项 数据 挖掘 实验 的 和 输入。 在 筛选 出 这 些 Python 程序 员 之 后 ， 
我 们 就 可 以 根据 他 们 之 间 的 好 友 关 系 聚 类 出 相似 的 用 户 。 在 这 里 , 我 们 定义 两 个 用 户 之 间 的 相似 
度 为 他 们 共同 的 好 友 的 多 寡 。 直 党 告诉 我 们 ,两 个 人 共同 的 好 友 越 多 , 在 现实 中 他 们 也 就 越 可 能 
成 为 朋友 ( 因而 在 社交 媒体 平台 上 他 们 也 就 越 可 能 加 对 方 为 好 友 )。 

我 们 要 用 上 一 章 介 绍 的 Twitter API 创建 一 幅 小 型 社交 网 络 图 ， 因 此 要 查找 的 数据 是 对 相似 
话题 ( 编程 语言 Python ) 感 兴 趣 的 用 户 子 集 和 他 们 的 好 友 ( 关注 的 人 ) 列表 。 有 了 这 份 数据 ,我 
们 就 能 通过 两 位 用 户 共同 好 友 的 数量 检验 他 们 之 间 的 相似 程度 。 


















































除了 Twitter 以 外 ,还 有 许多 其 他 在 线 社交 网 络 。 我们 之 所 以 把 Twitter 用 于 实验 ， 
是 因为 用 Twitter 的 API 获取 这 类 数据 较为 方便 。 在 Facebook、LinkedIn 以 及 
Instagram 这 样 的 网 站 上 虽然 也 有 同样 类 型 的 信息 ， 但 获取 它们 就 有 些 困 难 了 。 
与 上 一 章 如 出 一 辐 ， 在 开始 采集 数据 前 ， 创 建新 的 Jupyter Notebook ， 在 其 中 设置 twitter 
库 的 链接 。 在 这 里 ， 你 既 可 以 重新 使 用 上 一 章 的 Twitter 应 用 信息 ， 也 可 以 创建 一 个 新 应 用 。 


import twitter 








Consumer_key = "<Your Consumer Key Here>" 

consumer. secret = "<Your. Consumer Secret Here>" 
access_token = "<Your Access Token Here>" 

access_token_ secret = "<Your Access Token Secret Here>" 


authorization = twitter.OAuth(access_token, 
access_token secret, consumer_key, consumer_secret) 
t = twitter.Twitter(auth=authorization, retry=True) 


同样 , 设置 好 文件 名 。 本 次 实验 需要 一 个 不 同 的 文件 夹 ， 该 文件 夹 应 与 第 6 章 的 数据 集 区 分 
开 来 ， 以 避免 覆盖 上 一 次 的 数据 集 。 
import os 


data_folder = os.path.join(os.path.expanduser ("~"), "Data", "twitter") 
output_filename = os.path.join(data_folder, "python tweets.json") 


接 下 来 ， 获 取 用 户 列表 。 为 此 我 们 需要 像 前 一 章 中 一 样 ， 搜 索 提 及 单词 Python 的 推 文 。 首 
先 , 创建 两 个 列表 , 分 别 用 于 存储 推 文 的 文本 和 存储 与 之 对 应 的 用 户 。 因 为 之 后 还 会 需要 用 户 也， 
所 以 现在 还 要 创建 一 个 字典 以 保存 映射 关系 。 代 码 如 下 。 

original users = [] 

tweets = [] 

user_ids = {} 

下 面 要 执行 对 单词 Python 的 搜索 。 同 上 一 章 的 操作 一 样 ， 选 代 查询 结果 ， 只 保存 推 文中 的 
文本 〈 按照 上 一 章 的 要 求 )。 

Search_ results = t.search.tweets(gq="python", count=100)['statuses'] 

for' tweet. in Beach results:; 


if 'text' in tweet: 
original_users.append (tweet['user']['screen name']) 
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user_ids[tweet['user']['screen name']] = tweet['user']['id'] 
tweets.append (tweet['text']) 


运行 这 段 代码 之 后 就 能 获得 约 100 条 推 文 ， 有 时 候 数 量 可 能 会 少 一 些 。 不 过 ,这 些 推 文 并 非 
都 与 编程 语言 Python 相关 。 之 后 我 们 会 用 上 一 章 中 训练 好 的 模型 来 解决 这 个 问题 。 











用 现 有 模型 分 类 

我 们 在 上 一 章 中 了 解 到 ， 不 是 所 有 提 及 单词 Python 的 推 文 都 与 编程 语言 相关 。 我 们 用 上 一 
章 的 分 类 顺 挑 选 出 与 编程 语言 有 关 的 推 文 ， 绚 除 无 关 部 分 。 即 便 分 类 需 并 不 完美 ,分 类 后 的 绪 
也 比 直接 搜索 的 结果 更 具有 专业 性 。 

本 例 中 ,我 们 只 关心 发 表 与 Python 编程 语言 相关 推 文 的 人 。 因 此 ， 我 们 用 上 一 章 的 分 类 器 
判断 推 文 是 否 与 编程 语言 相关 ， 以 挑选 出 发 表 与 编程 语言 相关 的 推 文 的 人 。 


这 次 的 实验 更 为 广泛 , 在 此 首先 要 保存 上 一 章 的 模型 。 打 开 上 一 章 制 作 的 Jupyter Notebook， 
其 中 有 我 们 构建 并 训练 好 的 分 类 器 。 

































































因为 Jupyter Notebook 并 不 会 记录 以 往 结果 ， 所 以 如 果 你 已 经 关闭 了 上 一 章 的 笔 
( 途 记 本 ， 现 在 就 需要 重新 运行 其 中 的 代码 。 其 方法 是 在 笔记 本 的 Cell 菜单 中 找到 
并 点 击 Run All。 
所 有 输入 框 中 的 代码 运行 完成 后 ， 选 择 最 后 一 个 空白 的 输入 框 。 如 果 笔 记 本 的 最 后 没有 空 
白 输入 框 ， 就 要 选择 最 后 一 个 输入 框 ， 打 开 Insert 菜单 ， 然 后 选择 并 点 击 其 中 的 Insert Below 
选项 。 


我 们 要 用 joblib 库 保存 并 加 载 模型 。 
因为 scikit-learn 包 以 内 置 的 外 部 包 的 形式 包含 了 joblib 库 ， 所 以 我 们 不 
《3 需要 任何 额外 安装 步骤 ! joblib 库 中 包含 了 保存 与 加 载 模型 的 工具 ， 也 支持 简 
单 的 并 行 计 算 。 在 scikit-learn 里 面 ， 用 到 并 行 计算 的 地 方 有 很 多 。 
首先 ， 导 入 该 库 并 创建 输出 模型 的 文件 名 称 ( 请 确保 目录 存在 ， 否 则 无 法 创建 名 称 )。 虽 然 
本 节 会 在 Models 目录 下 存放 这 个 模型 ， 但 是 你 也 可 以 将 其 存放 在 其 他 位 置 。 代 码 如 下 。 


from sklearn.externals import joblib 
output_filename = os.path.join(os.path.expanduser ("~"), "Models", 
"twitter", "python_ context .pkl") 


接 下 来 要 使 用 的 是 joblib 中 的 aump () 函数 ， 它 的 功能 与 json 库 中 的 同名 函数 差不多 。 
我 们 向 这 个 函数 传人 模型 和 输出 文件 的 名 称 。 


joblib.dump (model, output_filename) 
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运行 这 行 代 码 ， 以 把 模型 保存 到 给 定 的 文件 中 。 然 后 ， 回 到 上 一 节 创 建 的 Jupyter Notebook 
中 ， 加 载 这 个 模型 。 


复制 下 面 的 代码 ， 在 笔记 本 中 重新 设置 模型 的 文件 名 。 


model_filename = os.path.join(os.path.expandqduser("~")， "Models", "twitter", 
"python_context .pkl") 


确保 此 处 的 文件 名 属于 刚才 用 于 保存 模型 的 文件 。 下 一 步 , 我 们 需要 重新 创建 BagofWords 
类 。 由 于 这 个 类 是 之 前 我 们 自行 创建 的 ， 因 而 joplib 不 能 直接 加 载 它 。 我们 需要 从 上 一 章 的 代 
码 中 复制 整个 Bagofwords 类 的 代码 ， 其 中 包括 导入 依赖 的 代码 。 


import spacy 
from sklearn.base import TransformerMixin 














# 创建 spaCy 语法 分 析 器 
nlp = spacy.load('en') 


class BagOfWords (TransformerMixin): 
def fit(self, XxX, y=None): 
return self 
def transform(self, xX): 


results = [] 
for document in X: 
row = {} 


for word in list(nlp(document, tag=False, parse=False, 
entity=False)): 
if len(word.text.strip()): # 如 果 单 词 是 空白 则 忽略 
rowl[lword.text] = True 
results.append (row) 
return results 


在 生产 环境 中 ,你 可 能 要 在 单独 的 、 中 心 化 的 文件 中 开发 自 定 义 的 转换 器 ， 然 后 
再 向 笔记 本 中 导入 它 , 而 不 是 像 现在 这 样 把 代码 复制 过 来 。 这 个 小 技巧 可 以 简化 
工作 流程 , 不 过 你 大 可 以 尝试 创建 一 个 实现 常用 功能 的 库 ， 以 中 心 化 管理 重要 的 
代码 。 


现在 只 需 调 用 joblip 的 10ad() 函数 即 可 加 载 模型 。 


from sklearn.externals import joblib 
context_classifier = joblib.load(model_filename) 























我 们 的 context_classifier 与 第 6 章 中 模型 对 象 的 功能 一 模 一 样 。 它 是 一 条 流水 线 
( pipeline ) 实例 ， 其 中 的 3 个 步骤 与 之 前 一 模 一 样 ( BagOfWords 、DictVectorizer， 还 有 
BernoulliNB 分 类 器 )。 调 用 模型 上 的 预测 函数 可 以 预测 出 推 文 是 否 与 编程 语言 相关 。 代 码 如 下 。 


Y_pred = context_classifier.predict (tweets) 


如 果 y_prea 中 的 第 /项 为 1, 那么 数据 集中 的 第 i 条 推 文 就 被 预测 与 编程 语言 相关 ; 若 该 值 
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为 0 则 不 相关 。 由 此 ， 我们 可 以 得 到 相关 的 推 文 和 推 文 所 关联 的 用 户 。 


relevant_tweets = [tweets[i] for i in range(len(tweets)) if y_pred[i] == 1] 
relevant users = [original users[i] for i in range(len(tweets)) if 
y_pred[i] == 1] 


我 用 这 份 数据 找 出 了 46 位 相关 的 用 户 。 比 起 前 面 的 100 条 推 文 /100 名 用 户 , 这 个 数值 偏 低 。 
不 过 , 我 们 现在 已 经 拥有 了 构建 社交 网 络 的 基础 , 之 后 可 以 添加 更 多 数据 以 增加 用 户 数量 。 不 过 ， 
40 多 位 用 户 对 于 本 章 内 容 的 首次 学 习 而 言 已 经 足够 了 。 我 建议 ， 在 重 返 本 章 时 ， 你 可 以 加 入 更 
多 数据 ， 重 新 运行 代码 ， 看 看 有 什么 新 的 收获 。 





7.2 从 Twitter 获取 关注 者 信息 


有 了 初始 的 用 户 数据 集 后 ， 我 们 还 需要 掌握 这 些 用 户 的 好 友 。 在 这 里 ,“ 好 友 ” 指 用 户 关注 
的 人 。friends/ids 这 一 API 就 专门 用 于 此 目的 。 它 既 有 优点 也 有 缺点 : 优点 是 这 个 API 上 的 
一 次 调用 能 返回 5000 个 好 友 ID; 缺点 是 每 15 分 钟 只 能 调用 15 次 。 也 就 是 说 ， 获 取 一 名 用 户 的 
好 友 最 少 也 需要 1 分 钟 时 间 ， 而 如 果 用 户 的 好 友 超 过 5000 个 ， 还 会 耗费 更 多 时 间 (这 种 情况 比 
你 想象 中 要 多 )。 


该 API 的 调用 代码 与 之 前 的 API 的 调用 ( 获取 推 文 ) 代 码 类 似 。 我 们 把 调用 代码 封闭 成 函数 ， 
这 样 就 能 在 后 两 节 的 内 容 中 重复 使 用 。 我 们 的 函数 以 Twitter 的 用 户 ID 为 参数 , 返回 用 户 的 好 友 。 
听 起 来 多 少 有 些 令 人 咋舌 的 是 ,许多 Twitter 用 户 的 好 友 数 量 大 于 5000。 为 此 ,我们 要 利用 Twitter 
API 的 分 页 功能 ， 分 多 次 调用 API 以 返回 多 页 结果 。 当 你 向 Twitter 请 求 信息 时 ， 它 会 在 返回 信 
息 时 附带 一 个 游标 ( cursor )。 游 标 是 一 个 整 型 数 ，Twitter 就 用 这 个 值 来 记录 你 的 请 求 。 如 果 没 有 
更 多 可 返回 的 信息 ， 那 么 游标 为 0; 和 否则， 你 就 能 用 Twitter 提供 的 游标 来 访问 下 一 页 结果 。 癌 
Twitter 传递 游标 即 可 继续 之 前 的 查询 ， 返 回 下 一 组 数据 。 


在 该 函数 中 ,在 游标 不 为 0 时 进行 循环 操作 ( 因为 当 游 标 为 0 时 ,没有 可 以 采集 的 新 数据 )。 
然后 , 查询 用 户 的 关注 者 并 将 其 添加 到 列表 中 。 为 了 便于 处 理 查 询 中 的 一 些 错误 , 我 们 应 该 在 块 
级 语句 try 中 执行 这 个 查询 。results 字典 中 的 ias 键 中 存储 着 关注 者 的 DD。 在 读 取 这 些 信息 
后 ， 更 新 游标 以 备 下 次 循环 迭代 时 使 用 。 最 后 ， 检 查 好 友 数 量 是 否 大 于 10 000 人 。 如 果 是 ， 则 
终止 循环 。 代 码 如 下 。 


import time 







































































def get_friends(t, user_id): 

friends = [] 

GUESOL SS 

while cursor != 0: 

Gr 
results = t.friends.ids(user_ id= user_id, cursor=cursor, 
count=5000) 

friends.extend([friend for friend in results['ids']] 
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cursor = results['next_cursor'] 
if len(friends) >= 10000: 
break 
except TypeError as e: 
if results is None: 
print ("You probably reached your API limit," 
"waiting for 5 minutes") 
sys.stdout.flush() 
time.sleep (5*60) # 等 待 5 分 钟 
else: 
发 生 了 其 他 错误 ， 照 常 抛 出 
raise e 
except twitter.TwitterHTTPError as e: 
print (e) 
break 
finally: 
# 强制 暂停 ， 防止 超出 API 访问 次 数 限 制 
time.sleep(60) 
return friends 





这 里 需要 提出 警告 。 因为 我 们 正在 处 理 的 数据 源 自 互联 网 , 所 以 其 中 经 常会 出 现 
奇怪 的 东西 或 发 生 奇 怪 的 事情 。 我 在 开发 这 段 代 码 时 就 遇 到 了 这 样 的 问题 : 某 些 
用 户 的 好 友 数 量 成 千 上 万 , 实在 大 多 。 为 了 修复 这 一 问题 , 我 在 代码 中 设置 了 一 

俏 处 保险 : 在 用 户 数量 达到 10 000 人 时 ， 退 出 函数 的 执行 。 如 果 你 想 采集 完整 的 
数据 集 ， 可 以 去 掉 涉 及 保险 的 几 行 代码 。 不 过 , 这 样 一 来 你 就 可 能 会 在 某 些 特殊 
的 用 户 上 卡 住 太 长 时 间 。 


上 述 函 数 中 的 多 数 代码 都 是 用 来 处 理 错误 的 ， 可 见 在 涉及 外 部 API 时 ， 可 能 出 错 的 地 方 实 
在 太 多 ! 


最 常 遇 到 的 错误 就 是 意外 触发 API 的 访问 速率 限制 (虽然 我 们 在 循环 中 插入 了 和 暂停 , 但 在 
暂停 过 程 完成 前 停止 代码 ， 然 后 又 重新 运行 代码 就 可 能 导致 这 个 问题 )。 在 这 种 情况 下 ， 
results 会 是 None, 代码 就 会 抛 出 TypPeErroro 因此 ， 我 们 可 以 等 待 3 分 钟 再 重新 运行 代码 ， 
以 期 进入 下 一 个 15 分 钟 窗口 。 此 时 可 能 再 次 发 生 TypeError。 这 里 我 们 将 直接 抛 出 它 ， 并 另 
外 单独 处 理 。 


第 二 种 错误 是 由 于 Twitter 终止 请 求 而 产生 的 ， 比 如 查询 了 不 存在 的 用 户 或 者 其 他 因为 数据 
产生 的 错误 。 这 种 错误 体现 为 TwitterHTTPError (与 HTTP 404 错误 的 概念 差不多 )。 此 时 应 
放弃 查询 当前 用 户 ， 而 仅 返 回 已 经 获取 的 关注 者 ( 这 种 情况 下 很 可 能 是 0 )。 


最 后 ， 因 为 Twitter 限制 只 能 在 每 15 分 钟 内 查询 15 次 关注 者 信息 ， 所 以 在 继续 下 一 次 循环 
前 我 们 让 程序 等 待 1 分 钟 。 我 们 可 以 将 这 段 代码 放 进 finally 块 级 语句 中 ， 以 确保 在 发 生 错 误 
时 仍然 会 执行 等 待 。 
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构建 网 络 


现在 就 要 构建 用 户 网 络 。 如 果 两 位 用 户 互 相关 注 , 那么 他 们 在 网 络 中 就 会 相连 。 构建 用 户 网 
络 旨 在 提供 一 种 数据 结构 ,让 我 们 可 以 把 用 户 列 表 分 割 成 群 组 。 有 了 这 些 群 组 ,就 可 以 在 群 组 内 
的 用 户 间 互相 推荐 。 从 原始 的 用 户 数 据 集 着 手 , 绪 取 每 位 用 户 的 好 友 ， 然 后 保存 到 字典 中 ( 在 从 
user_id 字典 取得 用 户 ID 后 )。 利 用 这 种 概念 ， 就 能 从 初始 的 用 户 数据 集 向 外 扩张 我 们 的 图 。 

friends = {} 

for screen name in relevant_users: 


user_id = user_ids[lscreen namel] 
friends[user_id] = get_friends(t, user_id) 


接 下 来 ， 移 除 没有 好 友 的 用 户 ， 因 为 我 们 没 法 以 本 章 中 的 方法 向 这 些 用 户 推荐 感 兴趣 的 人 。 
相反 ,我 们 需要 根据 这 些 用 户 的 推 文 内 容 或 者 关注 他 们 的 人 来 进行 推荐 。 限 于 篇 幅 ,， 本章 不 会 展 
开 探 讨 ， 因 此 这 里 还 是 直接 删除 这 些 用 户 。 代 码 如 下 。 

friends = {user_id:friends[user_id] 


for user_id in friends 
if len(friends[user_id]) > 0} 


根据 你 一 开始 的 搜索 结果 , 这 步 之 后 的 用 户 数量 应 在 30~50 人 。 现在 我 们 要 把 用 户 数 量 提升 
到 150 人。 由 于 API 限 制 了 访问 速率 ， 每 分 钟 只 能 获取 1 位 用 户 的 好 友 , 因而 下 面 的 代码 执行 时 
间 相 当 长 。 通 过 简单 的 数学 计算 就 能 知道 ，150 位 用 户 会 占用 150 分 钟 时 间 ， 也 就 是 2 小 时 30 
分 钟 。 在 获取 数据 上 花费 的 时 间 是 确保 只 保留 “好 用 户 ” 的 代价 。 


“好 用 户 ” 的 含义 是 什么 呢 ? 考虑 到 我 们 关注 的 是 基于 共同 连接 的 推荐 ， 因 此 就 要 基于 共同 
连接 来 搜索 用 户 。 我 们 查找 现 有 用 户 的 好 友 ,， 从 中 找 出 与 现 有 用 户 联系 更 紧密 的 用 户 。 我 们 通过 
维护 一 份 用 户 在 所 有 好 友 列 表 中 出 现 的 计数 来 实现 此 需求 。 在 考虑 采样 策略 时 ,也 要 把 数据 挖掘 
应 用 的 目标 纳入 考量 。 出 于 这 个 原因 ， 找 出 大 量 的 相似 用 户 可 以 让 推荐 功能 的 普遍 适用 性 更 强 。 


在 具体 实现 中 ,我 们 将 迭代 所 有 的 好 友 列 表 ， 记 录 好 友 出 现 的 次 数 。 


from collections import defaultdict 
def count_friends (friends): 
friengd_ count = defaultdict (int) 
for friengd list in friendqs.values() : 
for friend in friengd list: 
friend count[friend] += 1 
return friend count 


计算 出 当前 的 好 友 计 数 后 ， 就 能 从 样本 中 找到 连接 最 多 的 人 ( 现 有 用 户 中 好 友 最 多 的 人 )。 
代码 如 下 。 
friend count = count_friends (friends) 


from operator import itemgetter 
best_friends = sorted(friend count, key=friend count.get, reverse=True) 
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从 此 处 开始 ,设置 一 个 循环 ， 运 行 该 循环 ， 直 到 取得 150 个 用 户 的 好 友 为 止 。 和 迭代 所 有 








best_friend (按照 关注 他 们 的 用 户 数量 排序 )， 直 到 找 出 尚未 检查 的 用 户 为 止 。 然 后 获取 这 个 
用 户 的 好 友 。 更 新 friengs 计数 。 最 后 ， 找 出 列表 中 还 没 出 现 的 连接 最 多 的 用 户 。 


while lenl(friends) < 150: 
for user_id, count in best_friends: 
if user_id in friends: 
# 用 户 已 经 存在 ， 跳 至 下 一 个 
Continue 
friends[user_id] = get_friends(t, user_id) 
for friend in friendsl[luser_id]: 
friend count[friend] += 1 
best_friends = sorted(friengd count.items(), key=itemgetter(1), 
reverse=True) 
break 


代码 会 一 直 循 环 操作 ， 直 到 处 理 的 用 户 数量 达到 150 人 。 








你 也 可 以 把 用 户 数量 设置 为 更 低 的 值 , 比如 40 或 $0 位 用 户 (甚至 临时 跳 过 这 部 


人 分 代码 ) 然后 完成 本 章 其 余 的 代码 ， 感 受 一 下 结果 如 何 。 之后， 再 把 这 个 循环 


的 用 户 数 重新 设置 为 150， 让 代码 跑 上 几 个 小 时 ， 再 回来 运行 后 续 代码 。 
考虑 到 这 部 分 数据 的 采集 要 花费 将 近 3 个 小 时 , 为 了 防止 中 途 需 要 关闭 计算 机 ,最 好 还 是 保 




















存 一 下 采集 的 中 间 结 果 。 我 们 可 以 用 json 库 把 friengds 字典 保存 到 文件 中 。 








import json 
friends_filename = os.path.join(data_folder, "python_ friends.json") 
with open(friends_ filename, 'w') as outf: 

json.dump (friends, outf) 


加 载 文件 时 则 要 用 json .1oad() 也 数 。 


with open(friendqs_filename) as inf: 
friends = json.load(inf) 


7.3 创建 图 


实验 进行 到 这 一 步 时 , 我 们 手 上 已 经 有 了 一 份 用 户 及 其 好 友 的 列表 。 列表 中 的 数据 为 我 们 提 


供 了 一 幅 图 。 这 张 图 中 体现 的 是 用 户 与 其 他 用 户 的 好 友 关 系 ( 但 这 个 好 友 关 系 不 是 互相 的 )。 





/ 























( graph ) 是 节点 (node ) 和 边 ( edge ) 的 集合 。 节 点 就 是 我 们 关注 的 对 象 一 一 在 本 例 中 就 











是 用 户 。 下 面 这 张 图 中 的 边 表示 用 户 A 是 用 户 B 的 好 友 “。 因 为 用 户 A 是 用 户 B 的 好 友 ， 而 用 户 B 
不 是 用 户 A 的 好 友 , 所 以 这 样 的 图 就 被 称 作 有 向 图 ( directed graph )。 有 了 向 图 的 节点 是 有 序 的 。 示 




















例 网 络 图 图 7-1 中 还 体现 了 用 户 C 和 用 户 B 互 为 好 友 。 





Qz 此 处 “好 友 ” 的 意思 是 “关注 的 人 ”。 一 一 译 者 注 




















7-1 


Python 最 优秀 的 图 处 理 库 中 ， 有 一 个 叫 作 NetworkX 的 库 ， 它 能 创建 图 、 将 图 可 视 化 和 进行 
图 计算 。 


0 再 次 提示 ， 你 可 以 用 Anaconda 安装 NetworkX: conda install networkx。 


首先 ， 用 NetworkX 创建 一 幅 有 向 图 。 按 照 惯例 ， 把 NetworkX 导入 为 简写 形式 nx (虽然 不 
是 必要 步骤 )。 代 码 如 下 。 

import networkx as nx 

G = nx.DiGraph () 

我 们 只 将 主要 的 用 户 可 视 化 , 而 不 是 将 所 有 的 好 友 可 视 化 ( 因为 好 友 数 以 千 计 , 难以 可 视 化 )。 
获取 主要 的 用 户 ， 然 后 将 其 作为 节点 加 入 图 中 。 


main users = friends.keys() 
G.add_ nodes_from(main users) 


接 下 来 , 设置 图 中 的 边 。 如 果菜 个 用 户 是 男 一 名 用 户 的 好 友 ， 就 创建 一 条 从 前 者 指向 后 者 的 
边 。 为 此 ， 我 们 不 仅 要 迭代 给 定 用 户 的 所 有 好 友 ， 还 要 确保 其 中 的 好 友 是 main_users 中 的 用 
户 ( 因为 目前 我 们 不 想 将 其 他 用 户 可 视 化 )。 如 果 用 户 满足 上 述 条 件 ， 那 么 添加 一 条 边 。 

for user_id in friends: 

for friend in friends[luser_ id]: 
if str(friend) in main users: 
G.add_edge (user_id, friend) 

现在 ,用 NetworkX 的 draw() 函数 可 视 化 这 个 网 络 。 它 会 调用 matplotlib 作 图 。 启 用 

matplot1lib 的 内 联 功能 ， 再 调用 araw() 函数 ， 即 可 在 笔记 本 中 展示 图 片 。 代 码 如 下 。 


smatplotlib inline 
nx.draw (G) 


我 们 很 难 从 产生 的 图 像 中 找 出 什么 有 意义 的 东西 。 图 像 中 的 节点 挤 成 一 圈 , 体现 不 出 数据 集 
的 任何 特性 。 这 幅 图 一 无 是 处 ， 如 图 7-2 所 示 。 
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图 7-2 


用 pyplot (NetworkX 也 是 用 这 个 库 来 绘图 的 ) 控制 图 形 生成 ， 可 以 改善 图 的 可 视 化 表现 。 
导入 pyplot，, 创建 一 幅 更 大 的 图 形 , 然后 再 调用 NetworkX 的 draw () 函数 ,这样 就 扩大 了 图 像 




















的 尺寸 。 


from matplotlib import pyplot as plt 
plt.figure(3,figsize=(20,20)) 
nx.draw(G, alpha=0.1, edge_color='b') 








扩大 尺寸 并 增加 透明 度 之 后 ， 图 像 中 的 轮廓 自然 浮现 在 我 们 眼前 ， 见 图 7-3。 
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图 7-3 





在 我 们 的 图 中 存在 一 个 主要 的 群 组 , 该 群 组 内 的 用 户 之 间 拥 有 紧密 的 连接 , 而 其 他 用 户 之 间 
却 大 多 没有 什么 连接 。 如 图 7-3 所 示 ， 图 中 心 部 分 的 连接 非常 密集 ! 





这 其 实体 现 了 我 们 选取 新 用 户 的 方法 的 一 个 属性 





一 一 我 们 选取 


图 中 现 有 连接 较 多 的 人 , 因此 选 





择 他 们 只 会 扩大 这 个 群 组 。 社 交 网 络 中 用 户 的 连接 情况 遵循 震 次 法 则 (power law )。 连 接 多 的 用 户 
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只 占 一 小 部 分 ， 大 多 数 人 的 连接 很 少 。 人 们 通常 用 长 尾 long tail ) 这 个 词 来 描述 图 中 的 这 种 形状 。 


放大 图 中 细节 ,就 能 看 出 图 的 结构 。 像 这 样 对 图 进行 可 视 化 与 分 析 是 很 困难 的 。 在 下 一 节 中 ， 
我 们 会 了 解 一 些 可 以 使 处 理 这 种 数据 结构 的 工作 更 加 简便 的 工具 。 


创建 相似 度 图 


本 实验 的 最 后 一 步 就 是 根据 共同 好 友 数 量 推荐 用 户 。 正 如 前 文 所 述 ， 我 们 的 逻辑 在 于 : 如 果 两 
个 用 户 拥 有 共同 好 友 , 我 们 就 认为 他 们 高 度 相 似 。 基 于 这 样 的 逻辑 , 就 能 把 一 方 用 户 推荐 给 另 一 方 。 

因此 我 们 需要 现 有 图 中 的 信息 ( 边 表 示 好 友 关 系 )， 创 建 一 幅 新 图 。 新 图 中 的 节点 还 是 代表 
用 户 , 但 其 中 的 边 是 加 权 边 ( weighted edge )。 加 权 边 仅 比 普通 的 边 多 了 一 个 权重 属性 。 其 逻辑 
是 : 若 权 重 指 示 的 是 相似 度 ， 则 权重 越 高 ， 这 条 边 上 的 两 个 节点 就 越 相 似 。 权 重 的 内 涵 取 决 于 使 
用 场景 ， 如 果 权 重 指示 的 是 距离 ， 那 么 权重 越 低 就 越 相似 。 

在 我 们 的 应 用 中 ， 权 重 是 边 所 连接 的 两 个 用 户 间 〈 基 于 共同 好 友 数 量 ) 的 相似 度 。 男 外 ， 
这 次 的 图 还 有 一 个 属性 : 它 是 一 幅 无 向 图 。 之 所 以 如 此 ， 是 因为 在 相似 度 计算 中 ， 用户 A 之 于 用 
户 B 的 相似 度 与 用 户 B 之 于 用 户 A 的 相似 度 是 一 样 的 。 





























































































































其 他 的 相似 度 度量 方式 是 有 向 的 。 以 相似 用 户 的 比率 为 例 , 它 是 共同 好 友 数 与 用 
户 好 友 总 数 的 比值 ， 而 这 时 就 需要 有 向 图 了 。 


有 很 多 方法 可 以 计算 这 样 两 个 列表 间 的 相似 度 。 例如 , 我 们 可 以 计算 出 两 个 用 户 的 共同 好 友 
数量 。 不 过 在 这 种 度量 方式 下 ， 好 友 多 的 人 数值 高 。 然 而 ， 我 们 可 以 做 归 一 化 处 理 ， 把 共同 好 友 数 
量 除 以 两 个 用 户 的 所 有 去 重 好 友 数 量 ， 所 得 到 的 值 就 是 杰 卡 德 相似 系数 ( Jaccard Similarity ) “。 


杰 卡 德 相似 系数 介 于 0 和 1 之 间 ， 表 示 两 个 部 分 的 重 受 比例 。 我 们 在 第 2 章 就 见识 过 了 归 一 
化 ， 它 是 数据 挖掘 实践 中 不 可 或 缺 的 部 分 ， 而 且 通 常 能 起 到 良好 的 效果 。 虽 然 一 些 边 缘 情 况 不 适 
合 进行 归 一 化 ， 但 在 默认 情况 下 还 是 要 先 对 数据 做 归 一 化 处 理 。 

对 两 个 用 户 的 关注 者 集合 执行 交集 运算 和 并 集运 算 , 然后 用 交集 的 元 素 个 数 除 以 并 集 的 元 素 
个 数 。 由 于 以 上 运算 属于 集合 运算 ， 而 我 们 手 上 的 数据 却 是 列表 格式 ， 所 以 在 执行 这 些 集合 运算 
时 要 把 列表 先 转换 成 Python 中 的 集合 (set )。 代 码 如 下 。 


friends = {user: set(friendqs [user]) for user in friends} 


之 后 ， 创 建 一 个 函数 ， 计 算 好 友 列 表 间 的 相似 度 。 代 码 如 下 。 


def compute similarity (friends1, friends2): 
return len(friendqs1 & friends2) / (len(friendsl1 | friends2) + le-6) 










































































Q@ 这 个 概念 最 早 于 1901 年 由 苏黎世 联邦 理工 学 院 的 植物 学 教授 保罗 . 杰 卡 德 (Paul Jaccard，1868 一 1944 ) 提出 ， 
当时 被 称 为 “coefficient de communauté”。 一 一 译 者 注 
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在 上 面 的 相似 度 计算 中 , 我 们 在 分 母 中 加 上 了 1le-6( 即 0.000001 ), 这 是 为 了 避免 
在 两 个 用 户 都 没有 任何 好 友 时 ， 由 于 分 母 为 0 而 抛 出 ZeroDivisionError 异常 。 
我 们 加 上 的 这 个 值 很 小 ， 对 最 终结 果 的 影响 微乎其微 ， 但 足以 将 其 与 0 区 分 开 。 


到 这 一 步 , 就 可 以 根据 相似 度 创建 用 户 之 间 的 加 权 图 了 。 因 为 在 本 章 的 其 余 内 容 中 还 会 经 常 
用 到 创建 图 的 操作 , 所 以 我 们 创建 一 个 函数 来 完成 这 一 操作 。 我 们 需要 留意 一 下 thresholda( 浆 
值 ) 参数 。 


def create_graph (followers, threshold=0): 
G = nx.Graph() 
for userl1 in friends.keys(): 
for user2 in friends.keys(): 
if, WSerl :=3 USer2: 
continue 
weight = compute_similarity (friends[user1l], friends[user2]) 
if weight >= thresholgd: 
G.add_node (user1) 
G.add_node (user2) 
G.add_ edge (userl1l, user2, weight=weight) 











return G 

现在 , 调用 这 个 函数 以 创建 图 。 我 们 先 不 设置 闵 值 , 也 就 是 为 所 有 用 户 连 接 创建 边 。 代 码 如 下 。 

G = create graph (friends) 

这 会 生成 一 幅 连 通 性 相当 好 的 强 连通 图 ( strongly connected graph ) 一 一 虽然 很 多 边 的 权重 为 0， 
但 图 中 的 边 覆 盖 到 了 所 有 节点 。 在 绘图 时 ， 把 边 的 线 宽 与 权重 关联 起 来 ， 就 能 在 图 中 体现 出 权重 
了 一 一 线条 越 粗 ， 权 重 越 高 。 

由 于 节点 数量 非常 多 ， 因 而 要 把 图 形 尺 寸 调 得 大 一 些 ， 这 样 才能 清晰 地 表示 节点 间 的 连接 。 

plt.figure (figsize=(10,10)) 

在 按 权重 画 出 边 之 前 ， 要 先 画 出 节点 。NetworkX 用 1ayouts (布局 ) 参数 控制 图 形 中 节点 
与 边 的 放置 方式 ， 而 这 个 参数 要 遵循 一 定 的 标准 。 网 络 的 可 视 化 是 一 个 难度 很 大 的 问题 ， 这 个 问 
题 在 节点 的 数量 变 多 之 后 更 加 严重 。 尽管 有 各 种 各 样 的 技术 可 以 将 网 络 可 视 化 , 不 过 其 具体 效果 
主要 取决 于 数据 集 、 个 人 喜好 和 可 视 化 的 目的 。 此 处 ， 我 发 现 spring_layout ( 弹性 布局 ) 的 效 
果 特 别 好 。 此 外 也 有 其 他 选项 ， 比 如 circular_ layout ( 圆 形 布局 )、shell_layout ( 贝壳 布局 ) 和 
spectral_layout ( 谱 布 局 ) ， 在 其 他 算法 效果 不 好 时 可 以 试 试 它们 。 

关于 NetworkX 布 局 的 更 多 详情 参看 https:Wnetworkx.github.io/documentation/ 
networkx-1.11/reference/drawing.html。 尽 管 增 加 了 一 些 复杂 度 ， 然 而 draw_graphviz () 
函数 "效果 特别 好 ， 值 得 下 一 番 功 夫 研 究 ， 以 改进 可 视 化 的 效果 。 你 也 可 以 考虑 
把 它 投 入 到 实际 应 用 中 。 







































































在 NetworkX 的 2x 版 本 中 ,已 经 弃 用 了 该 函数 ,相同 的 功能 在 networkx.drawing.nx_agraph.graphviz_layout () 
函数 和 networkx.drawing .nx_pydot .graphviz_layout () 函数 中 实现 ， 具 体 使 用 方法 请 参看 2.x 系列 文档 。 
译 者 注 
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在 可 视 化 中 使 用 sprint_layout。 

pos = nx.spring_layout (G) 

用 pos 变量 中 的 布局 为 节点 定位 。 

nx.draw_networkx_nodes (G, pos) 

接 下 来 画 出 边 。( 按 特定 顺序 ) 迭代 图 中 的 每 条 边 ， 收 集 边 的 权重 。 
edgewidth = [ d['weight'] for (u,v,d) in G.edges (data=True)] 
然后 ， 在 图 中 画 出 边 。 


nx.draw_networkx_edges (G, pos, width=edgewidth) 


尽管 具体 结果 取决 于 数据 ,然而 所 得 到 的 图 通常 会 显示 : 多 数 节 点 具有 强 连接 ， 而 少数 节点 
与 网 络 中 的 其 他 节点 几乎 没有 连接 ， 见 图 7-4。 




















图 7-4 


与 之 前 的 图 相 比 , 本 次 生成 的 图 的 边 所 体现 的 是 基于 相似 性 度量 的 节点 相似 度 ， 而 不 是 好 友 
关系 (虽然 之 前 的 图 也 能 体现 出 两 个 用 户 之 间 的 相似 度 )。 我 们 现在 就 可 以 从 这 幅 图 中 提取 信息 
来 实现 推荐 功能 了 。 
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7.4 寻找 子 图 


通过 计算 相似 度 函 数 , 我 们 能 对 结果 中 的 用 户 做 简单 的 排序 , 并 返回 最 相似 的 用 户 作为 推荐 
建议 。 我 们 在 商品 推荐 中 也 是 这 样 做 的 。 这 个 方法 不 但 可 行 ， 而 且 确 实 不 失 为 完成 这 类 分 析 的 一 
种 办 法 。 


但 这 次 我 们 要 另辟蹊径 ， 从 用 户 群 中 找 出 聚 类 复 ， 使 得 该 徐 中 的 用 户 彼此 都 是 相似 的 。 我 们 
不 仅 可 以 建议 这 些 用 户 组 建 团体 , 也 可 以 投放 针对 这 个 细 分 市 场 的 广告 , 甚至 用 这 些 艇 进行 自动 
推荐 。 从 相似 用 户 中 发 现 聚 类 簇 的 过 程 就 叫 作 聚 类 分 析 ( cluster analysis )。 


聚 类 分 析 是 一 项 艰巨 的 任务 ,其 复杂 度 不 是 分 类 算法 的 复杂 度 能 比 的 。 举 个 例子 ， 
评估 分 类 算法 的 结果 很 简单 ， 我 们 只 需 直 接 把 结果 与 (训练 数据 集中 的 ) 事实 比 

OD 较 , 就 能 看 出 正确 分 类 的 比例 。 而 在 聚 类 分 析 中 却 没有 所 谓 的 事实 。 评估 聚 类 分 
析 的 结果 要 求 我 们 对 结果 中 应 存在 什么 样 的 徐 有 一 种 预期 ,然后 基于 这 种 预期 去 
评估 聚 类 所 产生 的 群 是 否 有 意义 。 


聚 类 分 析 的 为 一 个 麻烦 之 处 就 是 不 能 用 预期 结果 训练 模型 , 只 能 用 基于 数学 模型 的 近似 方法 
聚 类 ， 而 不 是 用 户 和 希望 的 那 种 泾 涓 分 明 的 分 析 结 


聚 类 分 析 的 种 种 问题 使 其 更 像 是 一 种 探索 性 (exploratory ) "工具 ,而 不 是 预测 工具 。 虽然 在 
某 些 研究 和 应 用 中 会 用 到 聚 类 分 析 方 法 , 但 它 作为 一 个 预测 模型 是 否 有 用 , 取决 于 分 析 者 能 否 找 
出 参数 和 看 起 来 正确 的 图 ， 而 非 取决 于 某 个 特定 的 评 佑 指标 。 


7.4.1 连通 分 量 
进行 聚 类 的 一 种 最 简单 的 方法 就 是 找 出 图 ( graph ) 中 的 连通 分 量 ( connected component )。 
连通 分 量 是 有 边 连 接 的 图 中 的 节点 集合 ， 在 连通 分 量 中 ， 不 是 所 有 的 点 都 必须 彼此 相连 。 然 而 ， 


同一 个 连通 分 量 中 的 两 个 节点 间 一 定 有 互相 连通 的 边 , 使 我 们 从 一 个 节点 出 发 , 经 由 通路 就 能 到 
达 另 一 个 节点 。 

在 计算 连通 分 量 时 ， 只 须 检 查 边 是 否 存 在 ,而 无 须 考虑 边 的 权重 。 鉴 于 此 ,下面 

的 代码 会 移 除 低 权 重 的 边 。 

我 们 可 以 在 图 上 调用 NetworkX 中 计算 连通 分 量 的 函数 。 首 先 , 用 create_graph () 函数 创 
建 一 幅 新 图 。 这 次 要 把 阔 值 设置 为 0.1， 以 移 除 权重 低 于 0.1 的 边 ， 即 要 求 两 个 用 户 至 少 有 10% 
的 共同 关注 者 。 

G = create graph (friends, 0.1) 


用 NetworkX 找 出 图 中 的 连通 分 量 。 























































































































Q@ 此 处 的 探索 性 意 指 探索 性 数据 分 析 ( EDA，exploratory data analysis )。 一 一 译 者 注 
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sub_graphs = nx.connected component_subgraphs (G) 


要 了 解 图 的 尺寸 信息 ， 可 以 分 组 迭代 ， 并 输出 基本 信息 。 


for i, sub_graph in enumerate(sub_ graphs): 
n_nodes = lenl(sub_graph.nodes()) 
print ("Subgraph {0} has {1} nodes".format (i, n_nodes)) 


结果 会 展示 每 个 连通 分 量 的 大 小 。 我 运行 的 结果 中 有 一 幅 包 含 62 名 用 户 的 大 子 图 ， 还 有 很 
多 只 包含 十 儿 个 或 更 少 用 户 的 小 子 图 。 

我 们 可 以 通过 调整 阔 值 来 改变 连通 分 量 。 这 是 因为 阔 值 越 高 ,连接 节点 的 边 就 越 少 ， 而 连 
分 量 就 会 越 小 、 越 多 。 用 更 高 的 阔 值 运行 上 述 代码 就 可 以 见 到 这 种 情况 。 

G = create_graph(friendas，0.25) 

sub_graphs = nx.connected component_subgraphs (G) 

for i, sub_graph in enumerate (sub_graphs): 


n_nodes = lenl(sub_graph.nodes()) 
print ("Subgraph {0} has {1} nodes".format (i, n_nodes)) 


上 述 代码 返回 了 更 小 、 更 多 的 子 图 。 此 时 ， 之 前 最 大 的 簇 分 裂 为 至 少 3 份 ， 其 中 没有 一 份 用 
户 数 超过 10。 图 7-5 就 是 其 中 的 一 个 示例 ， 它 展现 了 簇 中 的 连接 。 注 意 ， 因 为 这 是 一 个 连通 分 量 ， 
所 以 图 中 不 会 包括 连通 分 量 中 的 节点 到 图 中 其 他 节点 的 连接 〈 至 少 当 闪 值 是 0.25 时 是 这 样 的 )。 
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图 7-5 


我 们 可 以 画 出 整个 图 , 用 不 同 颜 色 表现 每 个 连通 分 量 。 因 为 连通 分 量 之 间 没 有 连接 ,所 以 把 
它们 都 画 在 一 张 图 里 是 毫 无 意义 的 。 这 是 因为 节点 和 连通 分 量 的 位 置 都 是 任意 的 ,而 这 会 扰乱 可 
视 化 的 效果 。 反 过 来 ， 我 们 可 以 在 不 同 的 子 图 形 上 为 每 个 连通 分 量 绘图 。 


在 新 的 输入 框 中 ， 取 出 连通 分 量 并 计数 。 


sub_graphs = nx.connected component_subgraphs (G) 
n_subgraphs = nx.number_connected_ components (G) 


sub_graphs 是 一 个 连通 分 量 的 生成 器 ( generator )， 而 不 是 列表 。 为 此 ， 我 们 

0 要 在 nx.number_connected_components 处 取出 连通 分 量 的 数量 , NetworkX 
存储 信息 的 方式 决定 了 用 len 是 行 不 通 的 。 这 就 是 我 们 在 此 处 需要 重新 计算 连通 
分 量 的 原因 。 
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新 建 一 个 pyplot 图 形 ,， 并 为 我 们 所 有 的 连通 分 量 留 出 足够 的 空间 。 为 此 ,我们 要 根据 连通 
分 量 的 数量 扩张 图 形 尺寸 
接 下 来 迭代 每 个 连通 分 量 并 为 其 添加 子 图 形 ( subplot )。add_subplot 的 参数 包括 子 图 形 的 
行 数 、 列 数 和 当前 子 图 形 的 索引 。 我 的 可 视 化 操作 用 了 3 列 ， 你 也 可 以 尝试 其 他 的 值 (请 记得 要 
同时 修改 行 和 列 的 数量 )。 

fig = plt.figure(figsize=(20, (n_subgraphs * 3))) 

for i, sub_ graph in enumerate (sub_graphs): 
ax = fig.add_ subplot (int (n_subgraphs / 3) + 1, 3, i + 1) 
ax.get_ xaxis() .set _ visible(False) 
ax.get_ yaxis().set visible(False) 
pos = nx.spring_layout (G) 


nx.draw_networkx_nodes (G, pos, sub_graph.nodes(), ax=ax,node_size=500) 
nx.draw_networkx_edges (G, pos, sub_graph.edges(), ax=ax) 


代码 会 将 每 个 连通 分 量 可 视 化 ， 使 其 中 的 节点 数 和 连通 情况 一 目 了 然 ， 如 图 7-6 所 示 。 
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如 果 你 的 图 中 没有 出 现任 何 东 西 ， 请 尝试 重新 运行 这 行 代码 : sub_graphs = 
人 nx.connected_component_subgraphs (G) 。sub_graphs 对 象 是 一 个 生成 
器 ， 在 使 用 过 一 次 后 就 “消耗 歼 尽 ”了 。 


7.4.2 ”优化 准则 


我 们 的 算法 根据 疮 值 参 数 找 出 了 连通 分 量 。 而 闵 值 参 数 可 以 控制 是 否 向 图 中 添加 边 。 反 过 来 ， 
它 也 直接 控制 了 连通 分 量 的 大 小 和 数量 。 那么 , 我 们 可 能 就 需要 解决 这 样 一 个 问题 : 该 如 何 选取 
最 佳 的 阔 值 ? 这 个 问题 颇具 主观 性 , 并 没有 确定 的 答案 , 但 同时 它 也 是 所 有 聚 类 分 析 任 务 中 的 主 
要 问题 。 


尽管 如 此 ,但 我 们 还 是 可 以 针对 好 的 解决 方案 提出 一 个 概念 ,并 根据 这 个 概念 定义 一 个 指标 。 
般 而 言 ， 我 们 需要 这 样 的 解决 方案 : 
口 同一 个 簇 ( 本 例 中 是 连通 分 量 ) 中 的 样本 彼此 高 度 相似 ; 
口 不 同 簇 中 的 样本 高 度 异 质 。 
轮廓 系数 (silhouette coefficient ) “就 是 一 种 能 量化 这 些 要 点 的 度量 方法 。 针 对 单独 样本 ,我 
们 可 以 按 如 下 公式 定义 轮廓 系数 。 










































































b-—a 
max(a,b) 


其 中 ,a 是 簇 内 距离 ( intra-cluster distance ) 或 者 该 样本 到 簇 中 其 他 样本 的 平均 距离 ，2 是 簇 间 距 
离 (inter-cluster distance ) 或 到 最 近 复 中 样本 的 平均 距离 。 











总 体 轮廓 系数 可 以 通过 对 所 有 样本 的 轮 廊 系 数 取 均值 求 得 。 聚 类 结果 的 轮 廊 系数 
越 接近 系数 的 最 大 值 |， 各 个 和 狂 中 的 样本 就 越 相 似 ， 各 个 徐 也 就 更 分 散 ; 轮廓 系 
种 数 接近 0 时 ， 所 有 狭 都 互相 重 登 ， 往 之 间 几 乎 没有 距离 ; 轮廓 系数 接近 其 最 小 值 
-1 时 ,样本 很 可 能 被 放 进 了 错误 的 徐 中 ， 也 就 是 说 ， 样 本 的 正确 位 置 应 该 在 其 
他 往 中 。 
我 们 想 要 利用 该 指标 ， 通 过 调整 阔 值 来 找 出 能 使 轮廓 系数 最 大 的 解决 方案 (也 就 是 一 个 阔 
值 )， 就 要 创建 一 个 计算 轮廓 系数 的 函数 ， 而 它 以 阔 值 为 参数 。 
之 后 把 这 个 函数 传人 SciPy 的 optimize (优化 ) 模块 。 该 模块 包含 可 以 通过 调整 函数 参数 以 
找 出 函数 最 小 值 的 minimize () 函数 ， 但 我 们 关心 的 是 让 轮廓 系数 最 大 化 ， 而 SciPy 中 没有 相应 
的 最 大 化 函数 。 因 此 我 们 要 求 轮廓 系数 相反 数 的 最 小 值 ( 相当 于 求 轮廓 系数 的 最 大 值 )。 


















































Qa 轮廓 系数 由 比利时 统计 学 家 彼得 ' 卢梭 (Peter Rousseeuw，1956 ) 于 1968 年 提出 。 一 一 译 者 注 
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在 scikit-learn 库 中 有 计算 轮廓 系数 的 函数 sklearn.metrics.silhouette_score()。 
不 过 ， 它 不 符合 SciPy 最 小 化 函数 对 函数 格式 的 要 求 。 最 小 化 函数 以 变量 参数 为 第 1 个 参数 (本 
例 中 是 阔 值 )， 其 他 参数 随后 。 在 当前 情况 下 , 我 们 要 把 friends 字典 作为 参数 传 给 最 小 化 函数 
以 计算 图 。 








轮廓 系数 的 定义 要 求 节点 数量 至 少 为 2 ( 因为 要 计算 距离 )。 为 此 ， 我 们 要 把 有 
问题 的 情况 标记 为 无 效 。 虽然 这 样 做 的 方法 有 很 多 , 但 最 简单 的 一 种 就 是 返回 特 

种 别离 谱 的 值 。 在 我 们 的 例子 中 ,轮廓 系数 最 小 只 能 取 到 -1， 因 此 我 们 用 -99 代表 
问题 无 效 。 任 何 有 效 的 方案 得 出 的 轮 廊 系数 都 会 大 于 -99。 


下 面 的 函数 解决 了 所 有 这 些 问 题 。 它 接收 阔 值 和 friends 列表 为 参数 ， 计 算出 轮廓 系数 。 
它 之 所 以 能 做 到 这 一 点 ， 是 因为 它 用 NetworkX 中 的 to_scipy_sparse_matrix() 国 数 从 图 中 
构建 矩 阵 。 


import numpy as np 
from sklearn.metrics import silhouette_ score 


def compute_silhouette(threshold, friends): 
G = create graph(friends, threshold=threshold) 
if len(G.nodes()) < 2: 
return -99 
sub_graphs = nx.connected component_subgraphs (G) 


if not (2 <= nx.number_connected components(G) < len(G.nodes()) - 1): 
return -99 


label_dict = {} 
for i, sub_graph in enumerate(sub_ graphs): 
for node in sub_graph.nodes(): 
label_ dict[node] = i 


labels = np.array ([label dict[lnodel] for node in G.nodes()]) 
xX = nx.to_scipy_sparse matrix(G) .todqense() 
双 二 让 (= 又 

return silhouette_ score(X, labels, metric='precomputed') 


在 稀 足 数据 集中 评估 聚 类 算法 性 能 时 , 我 建议 你 了 解 一 下 V-measure" 和 调整 互信 
&D 息 (AMI，Adjusted Mutual Information ) 这 两 种 方法 。scikit-learn 中 实现 了 
这 两 种 方法 ， 但 它们 进行 评估 所 用 的 参数 过 然 相 异 。 


scikit-learn 中 虽然 实现 了 轮廓 系数 , 但 在 本 书 撰写 时 ， 这 一 实现 尚 不 支持 稀 琉 矩阵 。 鉴 
于 此 ， 我 们 需要 调用 todqense () 函数 。 通 常情 况 下 ， 这 不 是 一 个 好 主意 ， 因 为 只 有 当 数据 不 应 
是 密集 格式 时 ,我 们 才 采 用 稀 蚊 矩阵。 本 例 的 数据 集 相对 较 小 ， 不 会 产生 什么 问题 。 不 过 ,不 要 















































GD V-measure 的 V 代表 “有 效 性 ”( validity ), 形式 上 与 F-measure 类 似 。 它 是 归 一 化 互信 息 (NMI, Normalized Mutual 
Information ) 方法 的 一 种 形式 ， 在 计算 分 母 中 的 归 一 化 子 时 采用 算术 平均 。 一 一 译 者 注 
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在 大 型 数据 集中 尝试 这 种 转换 。 


这 里 我 们 取 了 两 次 相反 数 。 第 一 次 是 在 计算 距离 时 取 了 相似 度 的 相反 数 。 因 为 轮 
gi 廓 系数 的 参数 只 能 是 距离 ， 所 以 这 步 必 不 可 少 。 第 二 次 是 为 适用 SciPy 优化 模块 
的 最 小 化 函数 取 了 轮 廊 系数 的 相反 数 。 
最 后 ， 创 建 用 于 最 小 化 的 函数 。 这 个 函数 取 compute_silhouette() 函数 结果 的 相反 数 ， 
因为 数值 越 低 ， 聚 类 效果 越 好 。 虽 然 在 compute_silhouette() 函数 中 取 相 反 数 是 可 行 的 ， 但 
是 为 理 清 实验 中 的 不 同步 又 ,我 把 取 相 反 数 的 操作 单独 拿 出 来 作为 一 步 。 


def invertedq_silhouette(threshold，friendqs) : 
return -compute_silhouette(threshold, friends) 






































这 个 函数 从 原始 函数 中 创建 新 函数 。 新 函数 调用 时 , 所 有 参数 和 关键 词 都 被 原封 不 动 地 传递 
给 原始 函数 ， 原 始 函 数 的 返回 结果 也 被 返回 。 但 是 ， 该 返回 值 在 被 返回 前 被 取 了 相反 数 。 

现在 ， 我 们 就 要 真正 地 优化 算法 了 o 我 们 把 取 相 反 数 后 的 compute_silhouette() 函数 传 
给 最 小 化 函数 。 


from scipy.optimize import minimize 
result = minimize(inverted_ silhouette, 0.1, args=(friends,)) 








最 小 化 函数 的 运行 需要 一 些 时 间 。 创 建 图 的 函数 的 运行 速度 和 计算 轮 廊 系数 的 函 
0 数 的 运行 速度 都 不 快 ， 虽 然 降低 maxiter 参数 的 值 能 减少 执行 中 的 选 代 次 数 ， 
但 这 样 返回 的 结果 容易 是 次 优 解 。 


函数 运行 完成 后 ,我 得 出 的 阔 值 是 0.135, 该 阐 值 能 返回 10 个 连通 分 量 。 最 小 化 函数 返回 的 
分 数 是 -0.192。 无 论 如 何 都 要 记 住 ， 这 个 值 是 我 们 取 的 相反 数 。 真 正 的 分 数 其 实 是 0.192， 是 一 
个 正 值 。 该 分 数 表 明 ， 簇 还 算 比 较 分 散 ( 这 是 个 好 迹象 )。 我 们 可 以 运行 其 他 模型 ， 看 看 得 分 能 
不 能 更 高 。 分 数 越 高 ， 复 就 越 分 散 。 

我 们 可 以 用 聚 类 结果 推荐 用 户 。 如 果 用 户 位 于 特定 连通 分 量 内 , 我 们 就 可 以 向 他 推荐 同一 个 
连通 分 量 内 的 其 他 用 户 。 我 们 运用 杰 卡 德 相似 系数 衡量 用 户 间 的 连接 , 用 连通 分 量 把 用 户 分 割 成 
复 ， 最 后 利用 优化 技术 寻求 最 佳 模 型 。 这 就 是 我 们 实现 推荐 关注 功能 的 思路 。 

然而 ， 数 据 集中 有 大 量 用 户 没有 连接 。 要 找 出 他 们 之 间 的 复 ， 就 要 用 另 一 种 算法 。 在 第 10 
章 中 ， 我 们 会 见 到 聚 类 分 析 的 其 他 方法 。 
















































































7.5 “本章 小 结 


本 章 关 注 社 交 网 络 中 的 图 ( graph ) 以 及 如 何在 图 中 执行 聚 类 分 析 。 我 们 了 解 了 如 何 用 
scikit-learn 保存 和 加 载 我 们 在 第 6 章 中 创建 的 分 类 模型 。 
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我 们 从 社交 网 络 Twitter 中 创建 好 友 图 , 以 用 户 之 间 相同 好 友 为 指标 衡量 两 个 用 户 是 否 相似 。 
虽然 考虑 到 好 友 数 量 的 整体 情况 , 我 们 对 好 友 数 量 做 了 归 一 化 处 理 , 但 共同 好 友 数 量 多 仍 能 体现 
出 两 个 用 户 相似 。 这 个 方法 通常 能 帮助 我 们 认识 相似 用 户 的 同 质 属性 ( 比如 年 龄 、 一 般 讨论 的 话 
题 )。 我 们 可 以 运用 这 样 的 逻辑 推荐 用 户 一 一 如 果 一 些 用 户 关注 了 用 户 闵 ， 并 且 用 户 与 用 户 X 
相似 , 那么 这 些 用 户 也 会 喜欢 用 户 Y。 在 很 多 方面 , 这 种 思路 都 与 之 前 章节 中 交易 导向 的 相似 度 
计算 方法 如 出 一 往 。 


本 章 旨 在 实现 推荐 用 户 的 功能 。 我 们 用 聚 类 分 析 寻 找 相似 用 户 所 属 的 篮 。 为 此 , 我 们 根据 相 
似 度 指标 ， 在 之 前 创建 好 的 加 权 图 中 找 出 连通 分 量 。 我 们 还 用 NetworkX 包 创 建 图 、 执 行 图 上 的 
操作 、 找 出 图 中 的 连通 分 量 。 


之 后 我 们 采用 了 轮廓 系 数 的 概念 ， 用 以 评估 聚 类 的 效果 。 根 据 簇 内 距离 与 簇 间距 离 的 概念 ， 
轮廓 系数 越 高 ， 聚 类 效果 越 好 。 我 们 还 用 SciPy 的 优化 模块 找到 了 轮廓 系数 最 大 的 方案 。 


在 本 章 内 容 的 实践 中 会 接触 到 几 对 相反 的 概念 。 相 似 度 与 距离 就 是 其 中 的 一 对 。 相 似 度 越 高 ， 
两 个 对 象 就 越 相 似 ; 相反， 距离 越 小 ， 两 个 对 象 才 越 相似 。 男 一 对 相反 的 概念 是 损失 函数 ( loss 
function ) 与 评分 函数 (score function )。 损失 函 数 的 值 越 小 ， 聚 类 效果 越 好 ( 即 损失 越 少 ); 而 对 
于 评分 函数 而 言 ， 值 越 大 ， 素 类 效果 越 好 。 


要 扩展 关于 本 章 内 容 的 学 习 , 可 以 研究 一 下 scikit-learn 中 的 V-measure 与 调整 共 信 息 两 
种 评分 方法 , 尝试 用 它们 替代 本 章 中 的 轮廓 系数 。 这 两 种 指标 的 最 大 化 方法 效果 会 比 轮廓 系数 更 
好 吗 ? 进一步 讲 , 你 是 如 何 判 断 的 呢 ?” 问 题 在 于 ,针对 聚 类 分 析 ， 你 往往 不 能 客观 判断 ， 而 且 需 
要 经 过 人 工 干 预 才能 选取 最 佳 方案 。 


在 下 一 章 中 , 我 们 要 介绍 如 何 从 另 一 种 新 类 型 的 数据 一 一 图 像 中 提取 特征 。 我 们 还 会 探讨 如 
何 使 用 神经 网 络 识别 图 像 中 的 数字 ， 开 发 自动 识别 验证 码 图 像 的 程序 。 
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在 数据 挖掘 人 员 的 心目 中 ,图像 意味 着 有 趣 而 艰难 的 挑战 。 直 到 近 些 年 , 提取 图 像 中 信息 的 
方法 才 取 得 了 少量 的 进展 。 尽 管 如 此 ， 这 些 进 展 已 经 在 像 自 动 驾 驶 汽车 这 样 的 领域 中 得 到 使 用 ， 




















商业 监控 、 自 动 驾驶 汽车 以 及 人 员 识 别 领域 。 


图 像 中 携带 了 大 量 的 原始 数据 ,而 编码 图 像 的 标准 方法 一 一 像素 








本 身 不 能 提供 信息 。 














并 在 很 短 的 时 间 内 取得 了 令 人 瞩目 的 成 果 。 最近 的 研究 为 我 们 提供 的 算法 可 以 理解 图 像 ， 服务 于 


像 和 照片 中 还 存在 模糊 不 清 、 离 目标 太 近 、 太 暗 、 太 亮 、 缩 放 、 裁 剪 和 扭曲 等 多 种 多 样 的 问题 ， 


这 些 都 严重 阻碍 了 计算 机 系统 从 中 提取 有 用 的 信 








式 ， 因 而 更 容易 归纳 并 解决 这 些 问 题 。 


本 章 着 眼 于 用 神经 网 络 从 图 像 中 提取 文本 数据 ， 以 预测 验证 码 (CAPTCHA ) 中 的 字母 。 验 证 
码 图 像 的 设计 目的 就 是 要 使 图 像 不 仅 易 于 人 类 理解 ， 还 能 难 住 计算 机 。 它 是 Completely Automated 
Public Turing test to tell Computers and Humans Apart 的 缩写 ， 意 为 全 自动 区 分 计算 机 和 人 类 的 图 
灵 测 试 。 许 多 网 站 在 注册 系统 、 评 论 系 统 中 使 用 验证 码 ， 以 免 自 动 化 程序 填 和 人 的 虚假 账号 和 垃圾 








评论 充斥 网 站 。 





息 。 神 经 网 络 能 把 低级 的 特征 组 合成 高 级 的 模 


这 类 测试 可 以 阻挡 试图 利用 网 站 的 程序 (机 器 人 程序 )， 比 如 自动 在 网 站 上 注册 新 用 户 的 机 
器 人 程序 。 这 次 我 们 要 扮演 垃圾 信息 制造 者 的 角色 , 尝试 在 有 验证 码 保护 的 在 线 论 坛 中 发 布 消 ， 
网 站 受到 验证 码 保护 意味 着 ， 如 果 我 们 没 能 通过 测试 ， 就 不 能 发 帖 。 


本 章 涵 盖 以 下 主题 : 


口 神经 网 络 ; 
口 创建 验证 码 和 字母 数据 


口 提取 图 像 的 基本 特征 ; 


口 用 后 处 理 提升 性 能 ; 
口 人 工 神 经 网 络 。 








口 处 理 图 像 数据 的 scikit-image 库 ; 
































口 在 大 规模 的 分 类 任务 中 使 用 神经 网 络 ; 


自 





Co 
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8.1 人 工 神经 网 络 





神经 网 络 ( neural network ) 最 初 是 一 类 根据 人 类 大 脑 工 作 机 制 设计 的 算法 。 不 过 神经 网 络 领 
域 近 年 来 的 进展 多 是 基于 数学 理论 , 而 非 源 于 生物 学 上 的 见解 。 神 经 网 络 是 互相 连接 在 一 起 的 神 
经 元 (neuron ) 的 集合 。 如 图 8-1 所 示 ， 每 个 神经 元 都 是 其 输入 的 简单 函数 ， 能 把 多 个 输入 组 合 
起 来 ， 然 后 用 机 数 生 成 输出 。 




















输入 国 数 输出 











图 8-1 


定义 神经 元 中 数据 处 理 过 程 的 函数 被 称 为 激活 函数 (activation function ), 它 可 以 是 任何 标准 
函数 , 比如 输入 的 线性 组 合 函数 -在 常用 的 神经 网 络 学 习 算法 中 , 激活 函数 要 满足 可 导 ( derivable ) 


























和 平滑 ( smooth ) 的 要 求 ， 以 使 函数 正常 运行 。Logistic() 函 数 “ 就 是 常见 的 一 种 ， 它 的 定义 
如 下 (1 常常 简单 取 1; x 是 神经 元 的 输入 ; 了 是 函数 的 最 大 值 ， 通 常 取 1 )。 
L 


0) = 


从 -6 到 +6 的 函数 图 像 见 下 图 。 红 线 指示 出 当 x 为 0 时 ， 函 数值 为 0.5。 不 过 随 着 x 的 增长 ， 
函数 值 迅速 攀升 到 1.0 附近 ; 而 在 x* 减 小 时 ， 函 数值 则 快速 跌落 至 -1.0 附近 ， 如 图 8-2 所 示 。 


10 

































































Qa 该 函数 由 比利时 数学 家 皮 埃 尔 : 弗 朗 索 瓦 ， 费 尔 哈 斯 ( Pierre Francois Verhulst，1804 一 1849 ) 于 1845 年 提出 ， 用 
作 一 种 人 口 增长 模型 。 但 他 没有 解释 命名 中 Logistic ( 法 语 : logistique ) 的 含义 。 这 个 命名 与 物流 (logistics ) 无 
关 ， 很 可 能 是 为 了 与 对 数 (logarithmic ) 区 分 开 。 一 一 译 者 注 
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每 个 神经 元 个 体 接收 输入 后 ， 都 会 根据 这 些 值 计算 输出 。 这 样 的 神经 元 连接 起 来 ,就 是 神经 
网 络 了 。 在 数据 挖掘 应 用 场景 中 , 神经 网 络 能 发 挥 其 强大 的 功能 。 这 些 神经 元 的 组 合 方式 、 如 何 
把 这 些 神经 元 训练 至 相互 契合 和 如 何 组 合 它们 以 训练 模型 都 是 机 器 学 习 中 最 重要 的 概念 。 





神经 网 络 简介 


数据 挖掘 应 用 场景 中 的 神经 元 通常 以 层 (layer ) 的 形式 组 织 。 第 一 层 是 输入 层 ( input layer )， 
接收 数据 中 的 样本 作为 输入 。 经 过 神经 元 的 计算 , 该 层 的 输出 会 传递 给 下 一 层 的 神经 元 。 这 种 形 
式 的 神经 网 络 叫 作 前 馈 神经 网 络 ( feed-forward neural network )。 这 是 最 常用 的 一 种 神经 网 络 ， 也 
是 本 章 中 使 用 的 唯一 一 种 神经 网 络 。 为 简明 起 见 ， 本章 暂 时 把 它 简 写 为 神经 网 络 。 在 其 他 的 应 用 
场景 中 我 们 还 会 见 到 不 同类 型 的 神经 网 络 。 第 11 章 会 介绍 另 一 种 神经 网 络 。 


将 各 层 的 输出 作为 其 下 一 层 的 输入 , 重复 此 过 程 , 直到 抵达 最 后 一 层 : 输出 层 (output layer )。 
这 一 层 的 输出 就 是 神经 网 络 针对 分 类 的 预测 结果 了 。 在 输入 层 和 输出 层 之 间 的 神经 元 层 叫 作 隐 藏 
层 (hidden layer )， 其 中 的 数据 表示 形式 难以 被 人 类 直观 理解 。 图 8-3 展示 了 一 个 3 层 的 神经 网 
络 。 大 多 数 神经 网 络 至 少 有 3 层 ， 而 现今 大 部 分 应 用 场景 中 使 用 的 神经 网 络 要 远 多 于 3 层 。 











































































































图 8-3 


通常 我 们 考虑 的 是 全 连接 层 ( fully connected layer )。 层 中 的 各 个 神经 元 的 输出 都 能 对 应 到 下 
一 层 的 神经 元 。 虽 然 要 定义 全 连接 神经 网 络 ， 但 在 训练 过 程 中 我 们 要 把 许多 权重 值 设 置 为 0， 这 
样 可 以 有 效 地 移 除 连接 。 男 外 ， 即 使 在 训练 后 ， 许 多 权重 值 仍然 非常 小 。 


全 连接 神经 网 络 不 仅 概念 上 较 其 他 形式 的 神经 网 络 简单 ， 也 更 容易 在 程序 中 得 到 高 效 的 实现 。 




















名 在 第 11 章 我 们 将 见 到 其 他 类 型 的 神经 网 络 ， 其 中 包括 专门 用 于 图 像 处 理 的 层 。 

















因为 神经 元 的 函数 通常 是 Logistic () 函数 , 且 神 经 元 也 都 连接 到 下 一 层 , 所 以 影响 神经 网 
络 构建 与 训练 的 参数 就 一 定 来 源 于 其 他 因素 。 


口 第 一 个 因素 出 现在 神经 网 络 的 构建 环节 。 它 是 神经 网 络 的 大 小 与 形状 ， 包 括 神经 网 络 的 
层 数 和 每 层 隐藏 层 中 的 神经 元 数量 (输入 层 和 输出 层 的 大 小 取决 于 数据 集 )。 























132 第 8 章 用 神经 网 络 识别 验 证 码 

















口 第 二 个 参数 出 现在 神经 网 络 的 训练 环节 。 它 是 神经 元 之 间 连 接 的 权重 。 当 一 个 神经 元 连 
接 到 另 一 个 神经 元 时 ， 两 者 之 间 的 连接 会 关联 一 个 权重 值 ， 用 来 与 前 者 的 输出 相 乘 。 假 
设 连接 的 权重 是 0.8 , 神经 元 已 激活 且 输 出 值 为 1 ,那么 输入 至 下 一 个 神经 元 的 值 就 是 0.8; 
如 果 前 面 的 神经 元 没有 激活 且 输 出 值 为 0， 那么 下 一 个 神经 元 的 输入 也 为 0。 


经 网 络 在 分 类 任务 中 的 准确 率 取决 于 其 大 小 是 否 合适 , 还 有 权重 值 是 否 训练 得 当 。 这 里 我 
们 说 的 大 小 合适 不 是 越 大 越 好 。 如 果 神 经 网 络 过 大 ,那么 其 训练 过 程 不 但 会 耗费 太 多 时 间 , 而 且 
容易 过 拟 合 训练 数据 集 。 


在 初始 阶段 , 我们 可 以 给 权重 随机 赋值 ， 因 为 之 后 的 训练 阶段 会 更 新 权重 。 把 权 
重 全 部 置 0 不 是 个 好 主意 ， 因 为 这 会 让 神经 网 络 中 所 有 神经 元 的 初始 行为 都 相 
0 似 ! 随机 赋值 能 让 神经 元 在 学 习 过程 中 扮演 不 同 的 角色 (role )， 而 通过 训练 ， 
我 们 可 以 改善 这 些 角色 。 
这 种 配置 下 的 神经 网 络 就 成 了 分 类 器 ， 它 能 根据 输入 , 给 目标 数据 样本 预测 类 别 ， 与 前 面 章 
节 中 介绍 的 分 类 算法 异曲同工 。 不 过 我 们 需要 一 份 数据 集 ， 才 能 完成 训练 与 测试 。 
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神经 网 络 是 近年 来 数据 挖 气 技 术 发 展 中 最 大 的 领域 , 其 至 可 以 说 它 独占 歼 头 。 这 
也 许 会 让 你 质疑 :“ 为 什么 还 要 学 习 其 他 类 型 的 分 类 算法 呢 ? ”尽管 神经 网 络 在 

0 各 个 领域 都 是 最 先进 的 技术 ( 至少 目 前 是 )， 但 通常 它 不 仅 需 要 规模 庞大 的 数据 
支持 ， 学 习 时 间 也 很 长 。 因 此 如 果 你 没有 足够 大 的 大 数据 (big data )， 那 么 用 其 
他 算法 效果 会 更 好 。 


8.2 创建 数据 集 

为 了 给 本 章 内 容 添加 一 些 乐 趣 , 在 本 章 中 我 们 要 扮演 起 坏人 的 角色 。 我 们 要 创建 一 个 能 自动 
识别 验证 码 的 程序 ， 从 而 让 我 们 的 垃圾 评论 程序 可 以 在 别人 的 网 站 上 发 布 广告 。 但 是 请 注意 : 本 
章 中 的 验证 码 要 比 当今 Web 环境 中 使 用 的 简单 ， 而 且 发 表 垃 圾 信息 不 是 什么 光彩 之 事 。 


















































尽管 我 们 要 扮演 坏人 的 角色 , 但 请 不 要 针对 现实 中 的 网 站 使 用 这 个 程序 。 我 们 从 
“坏人 ”这 一 角色 的 视角 出 发 是 为 了 便于 发 现 问题 ， 以 提升 网 站 的 安全 性 。 





我 们 简化 了 验证 码 ， 在 实验 中 只 选用 4 个 字母 的 英文 单词 ， 如 图 8-4 所 示 。 
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我 们 的 目标 是 创建 一 个 能 从 这 种 图 像 中 还 原单 词 的 程序 ， 其 实现 可 以 分 为 4 步 : 


(1) 从 图 像 中 拆 解 出 单个 字母 ; 

(2) 给 单个 字母 分 类 ; 

G) 重组 字母 ， 形 成 单词 ; 

(4) 用 字典 为 单词 排序 ， 尝 试 修正 错误 。 





词 ， 而 且 单 词 中 只 有 4 个 英文 字母 (其 实 我 们 在 创建 验证 码 和 识别 验证 码 时 用 的 
是 相同 的 字典 ); 其 二 ， 单 词 中 全 部 是 大 写字 母 ， 没 有 符号 、 数 字 和 空格 。 
字母 的 识别 比较 简单 ， 因 此 我 们 要 增加 一 些 难度 。 我 们 会 对 文本 做 错 切 变换 ( shear transform )， 
而 且 这 种 错 切 与 缩放 的 程度 并 不 是 一 成 不 变 的 。 


' 我 们 的 验证 码 识别 算法 基于 这 些 假 设 : 其 一 , 验证 码 中 出 现 的 是 完整 而 有 效 的 单 





8.2.1 绘制 简单 的 验证 码 


要 给 验证 码 分 类 ,首先 需要 一 份 数据 集 ， 以 便 算 法 从 中 学 习 。 在 本 节 中 , 我 们 要 自行 生成 用 
于 数据 挖掘 的 数据 。 





在 现实 中 的 应 用 场景 里 , 你 会 想 用 现成 的 验证 码 服务 生成 验证 码 数据 。 但 要 达成 
本 章 的 目的 , 用 我 们 自行 生成 的 数据 就 足够 了 。 还 有 一 个 问题 就 是 , 代码 基于 我 
们 对 数据 的 假设 ,而且 这 种 假设 是 在 数据 集 创建 时 故意 为 之 的 。 因 此 在 数据 挖 据 
的 训练 过 程 中 ， 就 仍 要 沿用 我 们 的 假设 。 


这 里 我 们 要 绘制 包含 单词 的 图 像 , 并 且 这 些 图 像 要 带 有 错 切 变换 。 我 们 用 PIL 库 绘制 验证 码 ， 
然后 用 scikit-image 库 对 图 像 执行 错 切 变换 。 scikit-image 库 需 要 读 取 NumPy 数组 格式 的 
图 像 ， 而 PIL 正好 可 以 导出 这 种 格式 ， 这 恰好 让 我 们 可 以 搭配 使 用 两 个 库 。 

















PIL 和 scikit-image 都 可 以 用 Anaconda 安装 .不 过 我 推荐 用 billow 替 代 PIL: 
conda install pillow scikit-image。 其 安装 后 的 使 用 方法 与 PIL 一 样 。 


首先 ， 导 入 必要 的 库 和 模块 。 我 们 导入 了 NumPy 和 绘图 用 的 函数 ， 代 码 如 下 。 


import numpy as np 
from PIL import Image, ImageDraw, ImageFont 
from skimage import transform as tf 


然后 ， 创 建 一 个 生成 验证 码 的 函数 作为 基础 。 这 个 函数 接受 单词 和 错 切 角度 (通常 取 0~0.5 
的 值 ) “为 参数 ， 返 回 NumPy 数 组 格式 的 图 像 。 为 了 使 这 个 函数 能 用 于 单个 字母 的 训练 ， 我 们 还 
允许 用 户 设置 生成 图 像 的 尺寸 。 

















| 根据 scikit-image 文档 ， 该 参数 是 逆 时 针 方向 的 错 切 角度 ， 单 位 是 弧度 。 一 一 译 者 注 
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def create_captcha (text，shear=0，sSize=(100，30)，scale=1) : 
im = Image.new("L", size, "black") 
draw = ImageDraw.Draw (im) 
font = ImageFont.truetype(r"bretan/Coval-Black.otf", 22) 
draw.text ((0, 0), text, fill=1, font=font) 
image = np.array (im) 
affine_ tf = tf.AffineTransform(shear=shear) 
image = tf.warp (image, affine tf) 


image = image / image.max() 

# 应 用 缩放 

shape = image.shape 

shapex, shapey = (int(shape[0] * scale), int (shape[1] * scale)) 


image = tf.resize(image, (shapex, shapey)) 
return image 


在 函数 中 我 们 指定 了 新 图 像 的 格式 为 “L”， 意 为 只 有 黑白 像素 (位 深 8 比特 )。 然 后 ， 创 建 
一 个 ImageDraw 类 的 实例 。 这 样 就 可 以 用 PL 绘图 了 。 之 后 加 载 字体 ， 绘 制 文 本 ， 并 在 图 像 上 
执行 scikit-image 中 的 错 切 变换 。 

















我 用 的 是 Open FontLibrary 中 的 Coval 字体 ,你 可 以 访问 这 里 下 载 : http://openfontlibrary. 
0 org/en/font/bretan。 下 载 好 .zip 文件 后 ,把 其 中 的 Coval-Black.otf 解压 到 笔 
记 本 所 在 的 目录 下 。 


现在 生成 图 像 的 工作 就 相当 简单 了 。 在 用 pyplot 显示 图 像 前 ,要 先 设置 matplotlib 的 
内 联 显 示 模 式 并 且 导 入 pyplot。 代 码 如 下 。 


smatplotlib inline 

from matplotlib import pyplot as plt 

image = create captcha ("GENE", shear=0.5, scale=0.6) 
plt.imshow (image, cmap='Greys') 


运行 完成 后 ， 你 就 能 看 到 本 章 一 开始 的 那 张 验证 码 图 像 了 。 下 面 是 一 些 不 同 错 切 角度 、 不 同 
缩放 倍数 的 示例 ， 见 图 8-5 和 图 8-6。 


image = create captcha ("BONE", shear=0.1, scale=1.0) 
plt.imshow(image, cmap='Greys') 






































图 8-5 


image = create_ captcha ("BARK", shear=0.8, scale=1.0) 
plt.imshow(image, cmap='Greys') 
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图 8-6 
图 8-7 把 缩放 调 到 了 1.5 倍 。 虽 然 看 起 来 它 跟 图 8-5 差不多 大 , 但 注意 , x 轴 与 y 轴 的 标尺 大 
了 不 少 。 


image = create_captcha("WOOFE"，Sshear=0.25，scale=1.5) 
plt.imshow (image, cmap='Greys') 
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8.2.2 ” 按 字母 分 割 图 像 


虽然 验证 码 都 是 单词 , 但 我 们 的 工作 不 是 构建 一 个 能 识别 成 千 上 万 可 能 单词 的 分 类 带 。 我们 
会 把 单词 这 样 的 大 问题 分 解 成 小 问题 ， 预测 图 像 中 的 字母 。 





在 我 们 的 实验 中 ,语言 为 英语 ， 而且 字母 全 都 是 大 写字 母 ， 也 就 是 说 我 们 只 需要 预 
测 26 种 字母 类 别 。 如 果 你 用 其 他 语言 进行 实验 ， 请 务必 注意 调整 输出 类 别 的 数量 。 


用 算法 破解 验证 码 的 第 一 步 就 是 把 其 中 的 单词 拆 分 成 字母 ， 并 识别 出 所 拆 分 出 每 一 个 字母 。 
我 们 创建 一 个 函数 来 实现 这 个 需求 。 该 函数 能 摘出 图 像 中 连续 成 片 的 黑色 像素 作为 子 图像 ， 而 这 
些 子 图 像 就 是 (或 者 至 少 应 该 是 ) 我 们 想 拆 分 出 的 字母 。scikit-image 库 中 有 完成 这 些 操 作 的 
工具 函数 。 


我 们 的 函数 以 图 像 为 参数 , 返回 子 图 像 的 列表 , 其 中 每 个 子 图 像 都 是 原 图 像 中 单词 中 的 字母 。 
首先 要 做 的 就 是 检测 字母 的 位 置 。 我 们 用 scikit-image 中 的 label() (标注 ) 函数 来 实现 ， 它 
在 值 相同 的 像素 中 寻找 连通 集 ( connected set ) "。 这 个 概念 类 似 第 7 章 中 的 连通 分 量 。 






















































































Q@ 连通 集 是 点 集 拓扑 中 的 概念 。 拓 扑 空 间 中 具有 连通 性 的 子 集 被 称 为 连通 集 。 在 本 例 的 代码 中 ，connectivity 参数 设 
为 1。 此 时 ， 像 素 的 连通 性 体现 为 像素 的 上 、 下 、 左 、 右 4 个 方位 中 的 任 一 方位 中 存在 值 相同 的 像素 。 译 者 注 
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from skimage.measure import label, regionprops 


def segment_image (image): 
# 标记 函数 能 找 出 连通 的 非 黑色 像素 组 成 的 子 图 像 
labeled_image = label (image>0.2, connectivity=1, background=0) 
subimages = [] 
# 用 regionprops 函数 分 离子 图 像 
for region in regionprops (labeled_ image): 
# 提取 子 图 像 
start_x, start_y, end_ x, end = region.bbox 
subimages.append(image[start x:end x,start _y:end y]) 
if len(subimages) == 0: 
# 没有 找到 子 图 像 ， 则 返回 完整 图 像 
return [image,] 
return subimages 








之 后 就 能 用 这 个 函数 从 示例 验证 码 中 找 出 子 图 像 了 “。 


subimages = segment_image (image) 


可 以 查看 其 中 的 每 个 子 图 像 。 


f, axes = plt.subplots(1, len 
) 
[ 





(subimages), figsize=(10, 3)) 
机: 
i], cmap="gray") 


for i in range(len(subimages 
axes[i].imshow(subimages 








各 个 子 图 像 如 图 8-8 所 示 。 
0 0 0 
5 * 5 % 5 * 5 
10 10 | 10 10 
15 15 \ 5 15 
0 5 10 15 0 5 1 35 0 5 2 0 5 :0 下 











图 8-8 











如 你 所 见 , 我 们 的 图 像 分 割 方法 取得 了 合理 的 成 果 。 不 过 分 割 出 的 子 图 像 仍 相当 凌乱 ,夹带 
着 前 后 字母 的 一 小 部 分 。 但 这 个 结果 不 仅 很 不 错 ， 而 且 几 乎 可 以 说 是 很 好 了 。 这 是 因为 训练 数据 
中 的 规则 噪声 会 抑制 训练 效果 , 而 其 中 的 随机 噪声 却 会 对 训练 有 所 助 益 。 其 原因 之 一 是 底层 数据 
模型 要 学 习 的 是 训练 数据 集中 的 重要 方面 (aspect )， 也 就 是 非 噪声 部 分 ， 而 不 是 数据 中 固有 的 特 
定 噪声 。 然 而 其 中 噪声 的 多 守 往 往 难 以 界定 ， 这 也 是 建立 恰当 模型 的 难点 。 在 验证 数据 集中 测试 
就 是 一 种 能 提升 训练 效果 的 好 办 法 。 






























































要 着 重 注 意 的 是 ,我 们 的 代码 并 不 总 能 找到 字母 。 通 常 ， 错 切 角度 小 的 图 像 分 割 结果 都 很 准 


品 















































Q 因 作 者 未 提供 运行 时 的 第 三 方 库 版 本 , 此 处 建议 对 regionprops () 函数 产生 的 区 域 (region ) 按 包 于 盒 (bounding 
box， 即 region.bbox ) 排序 ， 以 保证 子 图 像 顺序 正确 ， 实 验 结果 合理 有 效 。 一 一 译 者 注 
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比如 ， 用 下 面 这 段 代码 分 割 前 面 的 例子 WOOF ， 结 果 见 图 8-9。 


image = create captcha ("WOOF", shear=0.25, scale=1.5) 
subimages = segment_image (image) 
f, axes = plt.subplots(1, len(subimages), figsize=(10, 3), sharey=True) 
for i in range(len(subimages)): 
axes [i].imshow(subimages[i], cmap="gray") 
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图 8-9 
与 之 相对 ， 错 切 角度 大 的 图 像 分 割 效果 就 不 好 。 例 如 图 8-6 中 的 示例 ( 见 图 8-10 )。 
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图 8-10 
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值得 注意 的 是 , 方形 分 割 会 导致 大 面积 的 重 三 。 因 此 我 们 建议 用 查找 非 方形 分 割 的 方法 改进 
本 章 的 代码 。 





8.2.3 创建 训练 数据 集 

现在 , 我 们 就 可 以 用 定义 好 的 函数 创建 字母 数据 集 了 ,而 数据 集中 还 要 包含 不 同 错 切 角 度 的 
字母 。 之 后 ， 我 们 就 可 以 通过 在 数据 集 上 训练 神经 网 络 来 从 图 像 中 识别 字母 。 

首先 , 设置 随机 状态 ,并 设置 备 选 字母 、 错 切 角 度 和 缩放 倍数 的 数组 。 之 后 ， 从 数组 中 随机 
选取 。 如 果 你 以 前 就 用 过 NumpPy 中 的 arange () 函数 ， 那 么 此 处 就 没什么 好 惊讶 的 ; 而 如 果 你 没 
用 过 ， 那 么 它 与 Python 中 的 range () 函数 类 似 ， 而 两 者 的 区 别 在 于 arange () 操作 的 是 NumPy 
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数组 ， 而 且 支 持 浮 点 数 的 步 长 。 代 码 如 下 。 


from sklearn.utils import check_random state 
random_state = check_ random state(14) 
letters = list ("ABCDEFGHIJKLMNOPORSTUVWXYZ") 
shear_values = np.arange(0, 0.8, 0.05) 
scale_ values = np.arange(0.9, 1.1, 0.1) 


然后 创建 一 个 函数 ( 以 生成 训练 数据 集中 的 样本 个 体 )， 从 备 选 列表 中 随机 选取 字母 、 错 切 
角度 和 缩放 倍数 。 


def generate_ sample(random state=None): 
random_state = check_random state(random state) 
letter = random state.choice(letters) 
shear = random_ state.choice(shear_values) 
scale = random_ state.choice(scale values) 
# 我 们 把 图 像 尺寸 设置 为 (30，30)， 以 确保 图 像 中 能 显示 出 所 有 的 文字 
return create captchal(letter, shear=shear, size=(30, 30), scale=scale), 
letters.index(letter) 


这 个 函数 返回 字母 的 图 像 和 图 像 中 字母 本 身 的 目标 值 。 我 们 把 A 视 为 类 别 0, B 视 为 类 别 1， 

C 视 为 类 别 2， 以 此 类 推 。 
我 们 可 以 在 函数 外 调用 这 段 代 码 生成 新 样本 ， 并 用 pyplot 显示 出 来 。 
image, target = generate sample(random state) 


plt.imshow (image, cmap="Greys") 
print ("The target for this image is: {0}".format (target)) 


其 生成 的 图 像 只 是 单个 字母 ， 图 像 的 错 切 角度 和 缩放 倍数 都 是 随机 的 ， 如 图 8-11 所 示 。 















































图 8-11 
现在 我 们 可 以 上 千 次 调用 这 个 也 数 来 生成 全 部 数据 了 。 因为 NumPy 数组 比 列表 更 容易 处 理 ， 











所 以 之 后 我 们 会 把 数据 放 进 NumPy 数组 中 。 代 码 如 下 。 
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dataset, targets = Zip(*(generate sample(random state) for i in 
range(1000))) 
dataset = np.array ([tf.resize(segment_image(sample) [0], (20, 20)) for 
sample in dataset]) 
np.array (dataset, dtype='float') 
np.array (targets) 


dataset 
targets 


我 们 的 目标 值 是 0~25 的 整 型 数 , 每 个 值 代表 字母 表 中 的 一 个 字母 。 通常 , 神经 网 络 中 的 单个 
申 经 元 不 支持 输出 多 个 值 , 但 我 们 可 以 用 多 个 输出 0 和 1 的 神经 元 表示 输出 值 。 这 里 我 们 将 目标 
值 按 独 热 编码 处 理 ， 产 生 一 个 每 个 样本 26 个 输出 的 目标 矩阵。 与 对 应 字母 越 相似 ， 值 越 接近 1， 
反之 越 接近 0。 代 码 如 下 。 


from sklearn.preprocessing import OneHotEncoder 
onehot = OneHotEncoder() 
y = onehot.fit transform(targets.reshape (targets.shape[0],1)) 


从 输出 中 可 以 知道 我 们 的 神经 网 络 输出 层 有 26 个 神经 元 。 神 经 网 络 的 目标 是 根据 输出 决定 
激活 哪些 神经 元 ， 这 里 的 输入 是 组 成 图 像 的 像素 。 


因为 我 们 要 用 的 库 不 支持 稀 玻 数组 ， 所 以 需要 把 稀 玻 矩阵 转换 成 密集 的 NumPy 数组 。 如 果 
前 面 的 神经 元 没有 激活 且 输 出 值 为 0， 那么 下 一 个 神经 元 的 输入 也 为 0。 代码 如 下 。 
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Yy.todqense() 
dataset.reshape((dataset.shape[0], dataset.shape[l1] * 
dataset.shape[2])) 


最 后 ， 把 数据 集 分 割 成 训练 数据 集 和 测试 数据 集 两 部 分 以 便 之 后 评估 算法 "。 


from sklearn.cross_validation import train test_split 
XxX_train, Xx test, y_train, y_test = train test_split (XxX, y, train size=0.9) 


型 ， 
又 








8.3 ”训练 与 分 类 
我 们 现在 要 构建 一 个 神经 网 络 。 它 能 以 图 像 为 输入 ， 预 测 图 像 中 的 (单个 ) 字母。 


我 们 用 之 前 创建 的 单个 字母 训练 数据 集 , 它 本 身 很 简单 。 此 处 图 像 是 20 像素 x 20 像素 大 小 ， 
每 个 像素 只 有 1 ( 黑 ) 和 0 ( 白 ) 两 种 值 。 这 些 像 素 代表 将 会 被 输入 到 神经 网 络 中 的 400 个 特征 。 
神经 网 络 的 输出 为 26 个 值 ， 这 些 值 的 取 值 范围 为 0~1。 其 中 ， 输 出 值 越 高 ， 所 输入 的 图 像 中 的 


字母 与 其 关联 的 字母 越 可 能 是 同一 个 (第 1 个 神经 元 是 A, 第 2 个 是 B， 以 此 类 推 )。 



































本 章 用 scikit-learn 中 的 MLPClassifier 作为 我 们 的 神经 网 络 。 














Q 此 处 作者 未 沿用 本 书 惯例 指定 random_state=14， 因 而 实验 结果 不 可 完全 重 现 ， 具 有 偶然 性 。 作 者 的 完整 运行 
结果 见 : https://github.com/PacktPublishing/Learning-Data-Mining-with-Python-Second-Edition/blob/master/Chapter08/ 


十 才 


Old/ch8 CAPTCHA.ipynb。 一 一 译 者 注 
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为 了 使 用 MLPClassifer， 你 需要 较 新 版 本 的 scikit-learn。 如 果 下 面 的 导 


0 


命令 来 升级 ,命令 如 下 : conda update 


入 语句 执行 失败 ,你 可 以 在 升级 scikit-learn 后 重新 尝试 ,你 可 以 用 Anaconda 


scikit-learn,。 








像 scikit-learn 中 的 其 他 分 类 器 一 样 ， 我 们 要 导入 模型 类 型 然后 创建 一 个 新 实例 。 在 下 


面 的 构造 器 中 ， 我 们 指定 了 一 个 有 100 节点 的 隐藏 层 。 


输入 层 和 输出 层 的 大 小 将 在 训练 时 确定 。 


from sklearn.neural _ network import MLPClassifier 


clf = MLPClassifier(hidden layer_sizes=(100,), 


random_ state=14) 


在 scikit-learn 中 的 所 有 神经 网 络 模型 中 ， 都 有 一 个 get_params () 国 数 。 用 这 个 函数 
可 以 看 到 神经 网 络 的 内 部 参数 。 下面 就 是 上 面 的 模型 的 内 部 参数 ,其 中 的 许多 参数 可 以 用 来 改善 
训练 质量 或 者 提升 训练 速度 。 例 如 ， 增 加 学 习 速 率 ( learn rate ) 虽然 能 让 模型 训练 得 更 快 ， 但 容 








易 使 其 错过 更 优 的 参数 值 。 


{'activation': 'relu', 
'alpha': 0.0001, 
'batch_size': 'auto', 
'beta_1': 0.9, 
'beta_2': 0.999, 
'early_stopping': 
'epsilon': le-08, 
'hidden_ layer_sizes': (100,), 
'learning_rate': 'constant', 
'learning_rate_ init': 0.001, 
'max_iter': 200, 
'momentum': 0.9, 
'nesterovs_momentum': 
'power_t': 0.5， 
'random_state': 
'shuffle': True, 
'solver': 'adam', 
'tolLYs O00001; 
'validation fraction' : 
'verbose': False, 
'warm_ start': False} 


接 下 来 用 标准 scikit -learn 接口 训练 模型 。 
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我 们 的 模型 已 经 学 习 出 各 层 的 权重 。 检 视 clf.coefs_ 即 可 看 到 这 些 权 重 。c1f.coefs_ 是 
一 个 罗列 各 层 权 重 的 NumPy 数组 列表 。 例如 , 用 clf.coefs_[0] 可 以 查看 400 个 (图像 的 像素 


数 ) 神经 元 的 输入 层 到 100 个 〈 我 们 设 定 的 值 ) 神 























经 元 的 隐藏 层 之 间 连 接 的 权重 ;而 用 








clf.coefs_[1] 则 可 以 查看 隐藏 层 到 输出 层 〈 26 个 神经 元 ) 之 间 连 接 的 权重 。 这 些 权 重 与 上 述 


参数 一 起 ， 定 义 了 整个 训练 好 的 神经 网 络 。 


现在 就 可 以 用 训练 好 的 神经 网 络 来 对 测试 数据 集 做 出 预测 。 


y_pred = clf.predict (Xx_test) 
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最 后 ， 评 估 神 经 网 络 的 训练 结果 。 


from sklearn.metrics import fl1_score 
f1_score(y_predq=y_predq，yYy_true=y_test，average='macro' ) 


得 分 高 达 0.92， 令 人 瞩目 。 本 次 使 用 的 Fi score 用 的 是 宏 平均 ( macro-average ) 方法 ， 就 是 
单独 计算 每 个 类 别 的 Fi score， 并 直接 计算 它们 的 平均 值 ， 而 不 考虑 每 个 类 别 中 有 多 少 样本 。 
要 检查 各 个 类 别 的 结果 ， 可 以 查看 分 类 报告 。 


from sklearn.metrics import classification report 
print (classification report(y_pred=y_pred, y_true=y_test)) 


























实验 结果 如 下 。 
precision recall fl1-score support 
0 1.00 1.00 00 4 
1 1.00 1.00 00 1 
2 E00 L500 00 6 
3 1.00 1.00 00 7 
4 1.00 1.00 00 3 
5 1.00 1.00 00 3 
6 1.00 1.00 00 4 
7 1.00 LaQg. 00 4 
8 LaQy 1.00 1.00 4 
9 0.00 0.00 0.00 0 
10 1.00 .00 00 6 
11 1.00 .00 00 3 
12 00 .00 00 5 
13 00 .00 00 4 
14 00 1.00 1.00 6 
5 00 “O00 00 2 
16 00 .00 00 3 
7 00 00 00 5 
18 .00 200 00 4 
19 1.00 1.00 00 3 
20 .00 1.00 00 4 
21 00 1.00 00 7 
22 1 .00 1.00 1.00 5 
必 咏 0.00 0.00 0.00 0 
24 1.00 1.00 00 4 
25 1.00 1.00 00 3 
avg / total 1.00 1.00 1.00 100 



































报告 最 终 的 £1-score 是 最 后 一 行 倒数 第 二 个 值 ，1.0。 这 个 值 是 用 微 平均 ( micro-average ) 
方法 计算 的 , 就 是 计算 每 个 样本 的 f1-score 然后 求 平 均值 。 微 平均 在 各 类 别 的 大 小 相差 不 多 时 
更 有 意义 ， 而 宏 平均 则 更 适用 于 类 别 不 平衡 的 情况 。 


从 使 用 API 的 视角 来 看 ， 神 经 网 络 相当 简单 ， 这 是 因为 scikit-learn 隐藏 了 所 有 复杂 细 
节 。 不 过 ， 神 经 网 络 的 训练 背后 到 底 发 生 了 什么 呢 ? 我 们 要 如 何 训练 神经 网 络 呢 ? 
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反 向 传播 算法 
中 经 网 络 的 训练 主要 集中 于 以 下 几 个 方面 。 


口 首先 是 神经 网 络 的 大 小 与 形状 ， 即 神经 网 络 中 有 多 少 个 层 、 各 层 有 多 大 、 使 用 什么 误差 
函数 (error function ) 这 些 问 题 。 虽 然 有 些 种 类 的 神经 网 络 确实 可 以 改变 大 小 与 形状 ， 但 
最 常用 的 前 馈 神 经 网 络 就 几乎 不 能 这 样 操作 。 前 馈 神经 网 络 的 大 小 在 初始 化 时 就 固定 了 。 
像 本 章 中 的 前 馈 神 经 网 络 就 确定 了 第 一 层 有 400 个 神经 元 , 隐藏 层 有 100 个 神经 元 , 最 后 
一 层 有 26 个 神经 元 。 元 算法 ( meta-algorithm ) 可 以 训练 一 系列 神经 网 络 ， 并 在 神经 网 络 
外 侧 确定 哪 一 个 是 最 高 效 的 ， 通 常 被 用 来 训练 神经 网 络 的 形状 。 

口 神经 网 络 中 要 训练 的 第 二 部 分 是 神经 元 之 间 的 权重 。 在 标准 神经 网 络 中 ， 某 一 层 的 节点 

通过 边 连 接 到 下 一 层 的 节点 上 ， 而 边 上 有 确定 的 权重 。 虽 然 我 们 可 以 随机 初始 化 这 些 权 

重 (虽然 确实 有 像 自 动 编码 器 这 样 的 智能 方法 存在 )， 但 之 后 权重 需要 被 调整 ， 以 便 神 经 

网 络 学 习 训练 样本 与 训练 类 别 间 的 关系 。 


在 早期 的 神经 网 络 领域 , 调整 权重 值 是 阻碍 神经 网 络 发 展 的 关键 问题 之 一 。 直 到 名 为 反 向 传 
播 ( back propagation，backprop ) 的 算法 被 发 明之 后 ， 这 个 问题 才 得 到 解决 。 


反 向 传播 算法 能 把 错误 预测 归 责 给 各 个 神经 元 。 首 先 ， 思 考 神经 网 络 的 这 样 一 种 使 用 情形 : 
我 们 把 样本 输入 给 输入 层 ， 看 看 哪个 输出 层 的 神经 元 被 激活 。 这 就 是 前 向 传播 〈forward 
propagation )。 反 向 传播 则 反 过 来 ， 从 输出 层 回溯 到 输入 层 ， 按 权重 值 对 神经 网 络 出 错 的 影响 的 
比例 ， 给 神经 网 络 中 的 各 个 权重 值 划 分 责任 。 


权重 值 的 修改 幅度 取决 于 两 个 方面 : 
口 神经 元 的 激活 值 ; 
口 激活 函数 的 梯度 。 

首先 是 神经 元 激活 的 程度 。 被 大 ( 绝对 ) 值 激活 的 神经 元 对 结果 影响 大 ， 而 被 小 (绝对 ) 值 
激活 的 神经 元 则 对 结果 影响 小 。 因 此 , 修改 权重 值 的 幅度 取决 于 神经 元 激活 值 的 大 小 。 激 活 值 越 
大 ， 则 修改 幅度 越 大 ， 反 之 越 小 。 


其 次 是 按 激活 函数 梯度 的 比例 修改 权重 值 。 虽 然 许多 神经 网 络 对 所 有 神经 元 使 用 相同 的 激活 
函数 ,但 在 很 多 场景 中 , 在 不 同 层 的 神经 元 中 使 用 不 同 的 激活 函数 是 非常 有 意义 的 ( 对 同一 层 的 
神经 元 使 用 不 同 激活 函数 的 情况 虽然 存在 ， 但 很 少见 )。 激 活 函 数 的 梯度 、 神 经 元 的 激活 值 、 分 
配给 神经 元 的 错误 三 者 组 合 到 一 起 即 为 权重 值 的 修改 幅度 。 

因为 本 书 关注 实际 应 用 ， 所 以 我 跳 过 了 反 向 传播 算法 中 的 数学 原理 。 随 着 对 神经 
俏 网 络 使 用 的 不 断 深 入 ， 了 解 算法 背后 的 原理 会 让 你 收获 良 多 。 我 建议 你 了 解 一 下 
反 向 传播 算法 的 幕后 细节 。 而 理解 算法 原理 需要 一 些 关于 梯度 和 导数 的 基础 知识 。 

















< 























































































































































































































8.4 预测 单词 143 





8.4 ”预测 单词 


我 们 既然 已 经 有 了 一 个 预测 单个 字母 的 分 类 器 , 现在 就 可 以 向 计划 目标 迈 出 下 一 步 : 预测 单 
词 。 我 们 要 从 图 像 的 分 割 中 预测 出 字母 ， 然 后 把 这 些 对 字母 的 预测 组 合 在 一 起 ,作为 对 给 定 验证 
码 的 单词 预测 。 


函数 以 验证 码 和 训练 好 的 神经 网 络 为 参数 ， 返 回 预测 出 的 单词 。 


def predict_ captcha (captcha_image, neural network): 

subimages = segment_image (captcha_image) 

# 执行 转换 ， 与 训练 数据 中 的 一 样 

dataset = np.array ([tf.resize(subimage, ( 
subimages]) 

X_test = dataset.reshape( (dataset.shape[0], dataset.shapel[l1l] * 

dataset .shape[2])) 

# 用 predict_proba 和 argmax 获取 最 可 能 的 预测 

y_pred = neural_ network.predict_ proba (XxX_test) 

predictions = np.argmax(y_pred, axis=1) 

# 把 预测 转换 为 字母 

predicted word = str.join("", [letters[prediction] for prediction in 
predictions]) 

















20, 20)) for subimage in 


return predicted word 


现在 , 我 们 可 以 用 下 面 的 代码 测 斌 单词。 我们 可 以 尝试 不 同 的 单词 ,看 看 能 遇 到 什么 样 的 错 
误 。 不 过 要 注意 ， 我 们 的 神经 网 络 只 适用 于 大 写字 母 。 

word = "GENE" 

captcha = create_ captcha (word, shear=0.2) 


print (predict_captcha (captcha, clf)) 
plt.imshow (captcha, cmap="Greys") 


把 这 段 代码 重 构 成 一 个 函数 ， 方 便 执行 预测 过 


def test_predictionl(word, net, shear=0.2, scale=1): 

captcha = create captcha (word, shear=shear, scale=scale, 
size=(len(word) * 25, 30)) 

prediction = predict_captcha(captcha, net) 

return word == prediction, word, prediction 


函数 返回 的 结果 包括 预测 是 否 正确 、 原 始 单 词 和 预测 出 的 单词 。 代 码 正确 地 预测 了 单词 
GENE， 但 在 其 他 单词 上 出 错 。 神 经 网 络 的 准确 率 有 多 高 呢 ? 我 们 要 用 NLTK 创建 包含 大 量 四 字 
母 英文 单词 的 数据 集 并 将 其 用 于 测试 。 代 码 如 下 。 


from nltk.corpus import words 




















用 Anaconda 安装 NLTK: conda install nltk。 在 安装 完成 后 、 调 用 之 前 ， 
还 需要 下 载 语料库 : python -c "import nltk; nltk.download('word')", 
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这 里 的 words 实例 实际 上 是 一 个 corpus (语料库 ) 对 象 。 要 从 这 个 对 象 中 提取 出 单词 ， 需 
要 调用 上 面 的 words () 方 法 。 我 们 还 需 从 这 个 列表 中 过 滤 出 四 个 字母 的 单词 。 


validq_ words = [word.upper() for word in words.words() 
if len(word) == 4] 


之 后 ， 我 们 可 以 迭代 所 有 单词 。 只 需 对 正确 预测 和 错误 预测 进行 计数 ， 就 能 计算 出 准确 率 。 


num_correct = 0 
num incorrect = 0 
for word in valid words: 
shear = random state.choice(shear_values) 
scale = random_ state.choice(scale_ values) 
correct, word, prediction = test prediction(word, clf, shear=shear, 
scale=scale) 














if CoOrrect: 
num_ correct += 1 
else: 
num_ incorrect += 1 
print ("Number correct is {0}".format (num correct)) 
print ("Number incorrect is {0}".format (num_ incorrect)) 


我 取得 的 结果 是 : 3346 个 正确 预测 ，2067 个 错误 预测 ， 准 确 率 接近 62%。 跟 我 们 在 单个 字 
母 上 达到 的 92% 准 确 率 比 起 来 ， 下 请 幅度 很 大 。 这 其 中 发 生 了 什么 呢 ? 


准确 率 下 滑 的 原因 有 以 下 这 些 。 


口 影响 最 终 准确 率 的 首要 因素 就 是 字母 的 准确 率 。 在 其 他 条 件 相同 的 情况 下 ， 字 母 准 确 率 
是 99% 时 ， 预 测 一 个 包含 四 个 字母 的 单词 的 准确 率 就 只 有 96% ( 0.994 = 0.96 ) 了 。 这 是 
因为 单个 字母 预测 结果 的 错误 会 导致 整个 单词 预测 错误 。 

口 第 二 个 影响 因素 是 错 切 角度 。 在 该 数据 集中 , 错 切 角度 是 从 0~0.5 中 随机 选取 的 值 ， 而 前 
面 的 测试 示例 中 错 切 角度 是 0.2。 在 错 切 角度 为 0 时 ,我 取得 的 准确 率 是 75%; 当 错 切 角 
度 为 0.5 时 ， 准 确 率 低 至 2.5%。 由 此 可 见 ， 错 切 角 度 越 大 ， 性 能 越 差 。 

口 第 三 个 影响 因素 则 是 单词 经 常 被 错误 分 割 。 还 有 一 个 问题 就 是 ， 在 某 些 元 音 上 出 错 非常 

频繁 ， 导致 了 比 上 述 错误 率 更 多 的 错误 。 


让 我 们 检查 一 下 第 二 个 问题 ,并 映射 出 错 切 角度 和 性 能 的 关系 。 首 先 ， 把 评估 代码 封装 成 函 
数 ， 使 其 与 给 定 错 切 角度 相关 。 


def evaluation versus_shear (Shear_Value) : 

num_correct = 0 

num_ incorrect = 0 

for word in validq_ words: 
scale = random_ state.choice(scale values) 
Correct, word, prediction = test prediction( 

word, clf, shear=shear_value, scale=scale) 
if COrreet: 
num_ correct += 1 
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else: 
num_ incorrect += 1 
return num correct / (num correct+num incorrect) 


接 下 来 , 取 一 个 错 切 角度 的 列表 ,然后 用 这 个 函数 评估 各 个 错 切 角度 下 的 准确 率 。 注意 ,这 
段 代码 需要 运行 很 长 时 间 。 运 行 时间 约 为 30 分 钟 ， 具体 时 间 取 决 于 计算 机 硬件 。 


scores = [evaluation versus_shear(shear) for shear in shear_values] 





最 后 用 Seabom 为 结果 绘图 ， 结 果 见 图 8-12。 


import seaborn 

seaborn.set (style="darkgrid") 
plt.figure (figsize=(10, 7)) 
plt.ylabel = "Accuracy" 
plt.xlabel = "Shear" 

plt.plot (shear_values, scores) 
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图 8-12 


可 以 看 出 ， 错 切 角度 增加 至 0.4 后 ， 性 能 快速 跌落 。 对 输入 图 像 做 旋转 或 逆 错 切 变 换 这 样 的 
归 一 化 处 理 ， 可 以 改变 此 种 情况 。 


另 一 种 令 人 吃惊 的 解决 方案 是 增加 训练 数据 集中 大 错 切 角度 的 样本 的 数量 ,这 样 
可 以 让 模型 学 习 的 输出 更 加 泛 化 。 


在 下 一 节 中 ， 我们 将 研究 如 何 用 后 处 理 提升 准确 率 。 
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8.4.1 用 词典 提升 准确 率 


我 们 可 以 检查 预测 出 的 单词 在 词典 中 是 否 存在 ， 而 不 是 直接 返回 神经 网 络 给 出 的 预测 结果 。 
如 果 该 单词 存在 于 字典 中 ,就 将 其 作为 预测 结果 ; 如 果 不 存 在 , 则 可 以 尝试 找 出 相似 的 词 作为 预 
测 结果 。 要 注意 ， 这 个 策略 基于 我 们 的 假设 : 验证 码 都 是 有 效 的 英文 单词 。 因 此 ， 这 个 策略 不 适 
用 于 随机 字符 序列 的 情况 。 这 就 是 为 什么 有 些 验证 码 不 采用 词典 中 的 单词 。 

这 里 有 一 个 问题 : 怎么 判断 哪个 是 最 相似 的 词 ? 方法 很 多 ， 比 如 可 以 比较 单词 的 长 度 。 两 个 
单词 长 度 越 相近 , 则 单词 本 身 越 相似 。 不 过 , 我 们 通常 认为 只 有 单词 中 相同 字母 出 现在 同样 位 置 ， 
单词 才 相 似 。 这 就 需要 引入 编辑 距离 ( edit distance ) 的 概念 。 









































8.4.2 ”单词 相似 度 的 排名 机 制 


莱 文 斯 坦 编辑 距离 ( Levenshtein edit distance ) "是 一 种 用 于 衡量 两 个 短 字 符 串 相似 度 的 常用 
方法 。 由 于 这 种 方法 的 可 伸缩 性 ( scalable ) 不 好 ， 因 而 通常 不 用 于 比较 非常 长 的 字符 串 。 编 辑 
距离 计算 的 是 某 个 单词 变 成 男 一 个 单词 所 需 的 操作 步 数 。 每 步 只 能 执行 下 面 3 种 中 的 一 种 操作 。 


口 在 单词 中 的 任意 位 置 插入 一 个 新 字母 ; 
口 从 单词 中 删除 一 个 字母 ; 
口 蔡 换 一 个 字母 。 


把 一 个 单词 变 成 另 一 个 单词 的 最 少 步 又 就 是 编辑 距离 。 编 辑 距离 越 大 ， 单 词 就 越 不 相似 。 


NLTK 中 的 nlitk.metrics.edit_distance 可 以 计算 编辑 距离 。 把 两 个 字符 串 传递 给 这 个 
函数 并 调用 该 函数 ， 就 能 返回 编辑 距离 。 

from nltk.metrics import edit_ distance 

steps = edit_ distance("STEP", "STOP") 

print ("The number of steps needed is: {0}".format (steps)) 

在 处 理 不 同 单词 时 , 编辑 距离 确实 近似 于 大 多 数 人 对 单词 是 否 相 似 的 直观 感觉 。 编辑 距离 在 
检验 拼写 错误 、 听 写 错误 时 ， 以 及 进行 姓名 匹配 ( 比如 Marc 和 Mark 拼写 时 相当 容易 弄 混 ) 时 
都 能 发 挥 很 大 作用 。 


尽管 如 此 ,然而 编辑 距离 并 不 适用 于 我 们 的 例子 。 我 们 不 会 遇 到 字母 位 置 变 化 的 问题 ,只 会 
遇 到 字母 错误 的 问题 。 为 此 ,我 们 要 设立 一 种 不 同 的 距离 度量 : 位 置 正确 的 错误 字母 数量 。 代 码 
如 下 。 


def compute_ distance(prediction, word): 
len word = min(len(prediction), len (word)) 

































































































































































莱 文 斯 坦 编辑 距离 ( Levenshtein edit distance ) 是 编辑 距离 的 一 种 ， 由 俄罗斯 科学 家 弗 拉 基 米 尔 . 莱 文 斯 坦 
( Vladimir Levenshtein，1935 一 2017 ) 于 1965 年 首次 提出 。 译 者 注 
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return len word - suml([prediction[il] word[i] for i in 


range (len_ word)]) 


我 们 用 所 预测 单词 的 词 长 ( 本 例 中 是 4) 减 去 正确 字母 数量 作为 新 的 距离 度量 。 距 离 度量 的 
值 越 低 ， 两 个 词 就 越 相 似 。 





8.4.3 ”组装 成 型 


现在 可 以 测试 改进 后 的 预测 函数 了 ， 它 的 代码 较 之 前 没什么 不 同 。 首 先 ， 定义 预测 函数 。 其 
参数 中 也 包含 有 效 单词 列表 。 


from operator import itemgetter 


def improved prediction(word, net, dictionary, shear=0.2, scale=1.0): 
captcha = create captcha (word, shear=shear, scale=scale) 
prediction = predict_ captcha(captcha, net) 


if prediction not in dictionary: 
distances = sorted([(word, compute_ distance(prediction, word)) for 
word in dictionary], key=itemgetter(1)) 
best_word = Qistances [0] 
prediction = best_word[0] 
return word == prediction, word, prediction 


计算 预测 单词 和 词典 中 各 个 单词 的 距离 ， 并 按 距 离 排 序 ( 由 低 至 高 )。 下 面 的 代码 体现 了 测 
试 代码 中 的 变动 。 


num_correct = 0 
num_ incorrect = 0 
for word in valiqd_ words: 
shear = random_ state.choice(shear_values) 
Scale = random_ state.choice(scale_values) 
correct, word, prediction = improved prediction( 
word, clf, valid words, shear=shear, scale=scale) 
if correct: 
num correct += 1 
else: 
num_incorrect += 1 
print ("Number correct is {0}".format (num correct)) 
print ("Number incorrect is {0}".format (num incorrect)) 


运行 上 面 的 代码 需要 花 一 些 时 间 (计算 距离 尤其 费时 )。 最 后 的 结果 是 : 3975 个 样本 正确 ， 
1568 个 样本 错误 。 准 确 率 高 达 71.5%， 提 升 了 将 近 10 个 百分点 ”| 




















@ 译 者 重新 实现 了 该 实验 ， 修 复 了 子 图 像 顺序 、 样 本 重复 的 问题 ， 结 果 与 原 书 有 一 定 差异 。 具 体 代 码 、 运 行 环境 利 
结果 已 发 布 在 GitHub 上 ,， 仅 供 参考 : https://github.com/yinian1992/Learning-Data-Mining-with-Python-Second-Edition 
一 一 译 者 注 
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想 寻 求 挑战 吗 ? 那 就 在 bredaict_captcha() 函数 的 返回 值 中 加 入 分 配给 各 个 
OD 字母 的 概率 吧 。 默 认 情 况 下 ， 函 数 会 为 单词 中 的 每 个 字母 选择 最 高 概率 的 字母 
如 果 不 行 ， 就 把 各 个 字母 的 概率 相 乘 ， 选 择 可 能 性 次 高 的 词 。 


8.5 本章 小 结 


本 章 中 , 我 们 着 手 处 理 图 像 ， 用 其 中 的 相同 像素 值 来 预测 验证 码 呈 现 的 字母 。 我 们 稍稍 简化 
了 一 下 问题 , 使 验证 码 中 只 会 出 现 四 个 字母 的 完整 英文 单词 。 实 际 的 验证 码 识别 问题 会 复杂 许多 ， 
而 验证 码 也 更 难以 识别 。 在 进行 一 些 改进 后 , 用 神经 网 络 配合 我 们 所 讨论 过 方法 论 可 以 识别 更 复 
杂 的 验证 码 。scikit-image 库 中 有 许多 实用 的 图 像 处 理工 具 , 可 以 用 于 从 图 像 中 提取 形状 和 改 
善 图 像 的 对 比 度 。 它 们 能 给 我 们 的 验证 码 识别 工作 提供 助力 。 


我 们 还 处 理 了 预测 单词 这 样 的 大 问题 。 我们 把 它 分 解 成 小 而 简单 的 预测 字母 问题 来 解决 。 为 
此 ,我 们 创建 了 一 个 前 馈 神经 网 络 ， 以 准确 地 预测 图 像 中 的 字母 。 在 这 一 阶段 ,我 们 的 结果 非常 
优秀 ， 准 确 率 达到 了 92%。 


中 经 网 络 是 互相 连接 的 神经 元 的 集合 。 神 经 元 只 包含 一 个 函数 , 是 神经 网 络 的 基本 计算 单元 。 
不 过 当 神 经 元 连接 在 一 起 时 , 就 能 解决 令 人 难以 置信 的 复杂 问题 。 深度 学 习 是 当今 数据 挖掘 领域 
最 活跃 的 领域 之 一 ， 而 它 就 是 以 神经 网 络 为 基础 的 。 


尽管 我 们 在 预测 单个 字母 时 达到 了 近乎 完美 的 准确 率 , 但 在 预测 整个 单词 时 准确 率 就 跌落 到 
62%。 我 们 在 词典 中 搜寻 最 匹配 的 词 ， 改 善 了 预测 单词 的 准确 率 。 为 此 ， 我 们 考虑 采用 最 常用 的 
编辑 距离 来 衡量 相似 度 。 但 因为 我 们 只 需 关 注 单 词 中 错误 的 字母 ， 而 无 须 考虑 插 人 或 删除 字母 的 
情况 ,所 以 我 们 对 距离 度量 做 了 一 些 简 化 。 我 们 的 改进 虽然 有 一 定 的 效果 , 但 仍 有 许多 可 以 完善 
的 地 方 ， 读 者 可 以 尝试 进一步 提升 准确 率 。 


要 加 深 对 本 章 概念 的 理解 , 可 以 改变 神经 网 络 的 结构 , 添加 更 多 的 隐藏 层 或 是 修改 其 他 层 的 
形状 , 并 研究 这 些 改变 对 结果 的 影响 。 进 而 ,你 可 以 尝试 创建 更 多 复杂 的 验证 码 , 看 看 能 否 降低 
准确 率 。 你 能 构建 一 个 更 复杂 的 神经 网 络 来 学 习 复杂 的 验证 码 吗 ? 

像 验 证 码 这 样 的 数据 挖掘 问题 表明 , 初始 问题 ( 比如 猿 出 单词 ) 可 以 被 分 解 成 能 用 数据 挖掘 
方法 解决 的 一 个 个 子 任务 。 此 外 ， 这 些 子 任务 可 以 通过 不 同方 法 组 合 在 一 起 ， 例 如 利用 外 部 信息 。 
本 章 把 字母 预测 与 词典 中 的 单词 结合 在 一 起 ， 以 得 到 最 终 的 结果 。 这 比 只 用 字母 准确 率 更 高 。 

下 一 章 将 继续 比较 字符 串 。 我 们 要 尝试 根据 文档 内 容 (从 一 组 作者 中 ) 确定 特定 文档 的 作者 ， 
而 不 借助 其 他 信息 。 
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第 9 章 


作者 归属 问题 








作者 分 析 ( authorship analysis ) 是 一 种 文本 挖掘 任务 ， 旨 在 分 析 作 品 内 容 ， 识 别 作者 的 某 些 
寺 征 ， 如 年 龄 、 性 别 、 背 景 等 。 在 具体 的 作者 归属 (authorship attribution ) 任务 中 ， 我 们 的 目的 
是 从 一 组 作者 中 识别 特定 文档 的 作者 。 作 者 归属 也 是 一 种 经 典 的 分 类 任务 。 作 者 分 析 的 诸多 方面 
都 采用 标准 的 数据 挖掘 方法 论 ， 例 如 交叉 验证 、 特 征 提 取 和 分 类 算法 等 。 


本 章 将 会 汇聚 前 面 章节 中 所 有 的 数据 挖掘 方法 论 来 解决 作者 归属 问题 。 我 们 要 确定 问题 、 论 
述 问 题 的 背景 与 相关 知识 。 这 会 提供 挑选 特征 的 依据 。 之 后 我 们 会 通过 构建 流水 直线 来 提取 特征 。 
本 章 将 测试 两 种 类 型 的 特征 : 功能 词 (function word ) 和 字符 n 元 语法 特征 ， 最 后 ， 我 们 将 深入 
分 析 其 结果 。 我 们 会 先 处 理 图 书 数据 集 ， 再 尝试 现实 中 杂乱 的 电子 邮件 语料库 。 

本 章 涵盖 以 下 主题 : 

口 特征 工程 以 及 不 同 具体 应 用 场景 中 的 特征 选择 有 何 区 别 ; 
口 带 着 明确 的 目标 ， 回 顾 词 袋 模型 ; 

口 特征 类 型 与 字符 n 元 语法 模型 ，; 

口 支持 向 量 机 (SVM，support vector machines ); 

口 清洗 杂乱 数据 集 ， 以 便 进 行 数据 挖掘 。 


9.1 文档 的 作者 归属 


作者 分 析 是 一 个 计量 文体 学 (stylometry ) "问题 ， 它 研究 的 是 作者 的 写作 风格 。 因 为 每 个 人 
对 语言 的 掌握 与 运用 都 存在 细微 差异 , 所 以 通过 对 文字 作品 进行 定量 分 析 , 就 能 让 我 们 从 精微 之 
处 区 分 作者 。 这 就 是 文体 学 的 基本 思路 。 


作者 分 析 曾 经 ( 1990 年 之 前 ) 要 靠 人 工 完成 重复 性 的 分 析 、 统 计 工 作 。 这 种 重复 性 就 是 自 




















































































































Qz 计量 文体 学 ( stylometry ) 是 把 文体 学 ( stylistics ) 与 统计 学 原理 结合 起 来 的 一 门 定量 科学 。 这 一 概念 最 早 由 波兰 
哲学 家 文 岭 蒂 卢 托 斯 瓦 夫 斯 基 ( Wincenty Lutostawski，1863 一 1954 ) 于 1890 年 在 其 作品 Principes de stylométrie 
中 提出 ， 用 来 为 柏拉图 的 《对 话 录 》 制 作 一 份 年 表 。 译 者 注 
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动 化 的 数据 控 掘 方法 能 大 显 身 手 的 标志 。 当今 虽然 仍 有 大 量 涉及 语言 风格 和 文体 计量 的 分 析 工 作 
要 靠 人 工 完成 , 但 几乎 所 有 作者 分 析 研 究 都 使 用 了 基于 数据 挖掘 的 方法 。 现 今 特征 工程 中 的 大 多 
发 展 也 是 由 计量 文体 学 推动 的 。 换 言 之， 人 工分 析 所 发 现 的 新 特征 会 被 编 为 代码 ,成 为 数据 挖 气 
过 程 的 一 部 分 。 


在 计量 文体 学 中 ， 有 一 个 关键 的 底层 特征 被 称 为 作者 不 变量 ( writer invariant )， 即 在 某 个 特 
定 作者 的 所 有 作品 中 都 会 出 现 ， 而 其 他 作者 的 作品 不 具备 的 特征 。 实 践 表明 ， 作 者 不 变量 可 能 3 
不 存在 ， 因 为 随 着 时 间 推移 ， 作 者 的 行文 风格 本 身 也 会 变化 。 不 过 借助 数据 控 气 方法， 我 们 能 靠 
近 距离 利用 这 一 规律 的 分 类 器 。 


作者 分 析 领 域 有 许多 子 问题 ， 主 要 有 以 下 这 些 。 


口 作者 画像 ( authorship profiling )。 根 据 作 品 内 容 ， 确 定 作 者 的 年 龄 、 性 别 或 者 其 他 特征 。 

比如 我 们 可 以 通过 别人 讲 英语 时 的 特别 之 处 判断 他 的 母语 是 什么 。 

口 作者 验证 (authorship verification )。 根 据 作者 的 已 知 作品 ,检验 其 他 作品 是 否 也 出 自 该 作 
者 之 手 。 在 法 庭 这 样 的 场景 中 ， 就 会 产生 这 类 问题 。 例 如 通过 分 析 犯 罪 嫌疑 人 ( 内容 上 
的 ) 写作 风格 匹配 出 勒索 信和 的 作者 。 

口 作者 聚 类 ( authorship clustering )。 作者 验证 的 扩展 应 用 。 用 聚 类 分 析 方 法 为 作品 分 组 归 类 ， 

并 将 聚 类 簇 中 的 作品 视 为 出 自 相 同 作者 。 
















































































尽管 有 很 多 子 问 题 ， 但 作者 分 析 中 最 常见 的 研究 形式 还 是 作者 归属 ( authorship 
attribution ) 问题 。 它 是 分 类 任务 的 一 种 ， 其 目的 是 预测 给 定 文 档 的 作者 。 
9.1.1 应 用 与 场景 


作者 分 析 的 使 用 场景 有 很 多 ， 其 中 许多 场景 会 涉及 作者 验证 、 证 明 共 同 作 者 /出 处 和 关联 社 
会 媒体 用 户 等 问题 。 

从 历史 学 的 角度 出 发 , 我 们 可 以 用 作者 分 析 来 验证 文献 的 假想 作者 ， 比 如 部 分 莎士比亚 的 戏 
剧 作品 、 美 国 建国 初期 的 联邦 党 人 文集 这 样 作 者 存在 争议 的 历史 文本 。 








虽然 作者 分 析 本 身 不 能 证 明 作 者 关系 ,但 能 为 支持 或 推翻 关于 作者 关系 的 既成 理 
论 提供 证 据 。 


例如 ,在 检验 某 一 首 十 四 行 诗 是 否 出 自 莎 士 比 亚 笔下 之 前 , 可 以 先 分 析 莎 士 比 亚 的 戏剧 作品 ， 
确定 他 的 行文 风格 ( 现在 的 一 些 研 究 表明 ， 莎 士 比 亚 的 部 分 作品 可 能 有 多 个 作者 )。 

近年 来 , 作者 分 析 也 被 用 于 关联 社交 网 络 账号 。 比 如 某 个 恶意 用 户 在 多 个 在 线 社交 网 络 中 都 
注册 了 账号 。 若 亚 意 用 户 有 骚扰 其 他 用 户 的 情况 , 作者 分 析 可 以 让 当局 能 够 追踪 恶意 账号 的 真实 
使 用 者 9 
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过 去 ,作者 分 析 一 直 是 司法 鉴定 的 中 流 研 柱 ， 为 法 庭 提 供 关 于 判定 文档 作者 的 专家 证 词 。 例 
如 , 犯罪 嫌疑 人 被 指控 通过 电子 邮件 骚扰 他 人 时 , 作者 分 析 可 以 确定 此 人 实际 上 是 否 为 邮件 的 作 
者 。 作 者 分 析 在 司法 中 还 有 一 种 应 用 : 解决 著作 权 争 议 。 比 如 当 两 个 人 均 宣 称 自己 是 某 本 书 的 作 
者 时 ， 作 者 分 析 能 提供 关于 作者 关系 的 倾向 性 证 据 。 
然而 ,作者 分 析 并 非 万 无 一 失 。 最 近 的 研究 显示 ,仅仅 要 求 那 些 未 经 特别 训练 的 人 刻意 隐藏 
行文 风格 , 就 能 大 大 增加 作者 归属 问题 的 难度 。 在 研究 的 实验 中 还 专门 仿照 他 人 的 风格 进行 了 写 
作 ， 结 果 发 现 这 种 模仿 通常 能 扰乱 作者 分 析 ， 使 其 结果 指向 被 模仿 的 人 。 
尽管 存在 这 些 问题 , 然而 作者 分 析 仍 在 为 诸多 领域 提供 强 有 力 的 支持 , 而 且 其 适用 场景 也 在 
不 断 扩展 。 此 外 ,作者 分 析 也 是 数据 挖掘 中 的 一 个 值得 研究 的 有 趣 课题 。 
虽然 作者 归属 的 结果 可 以 作为 专家 证 词 使 用 , 但 是 它 本 身 难 以 单独 作为 铁证 ,在 
处 理 著作 权 纠 纷 这 样 的 正式 事务 时 ， 请 先 询问 律师 。 



























































9.1.2 ”作者 归属 


作者 归属 (authorship attribution ) ( 与 作者 分 析 区 分 开 ) 是 分 类 任务 中 的 一 种 。 在 该 任务 中 , 我 
们 把 候选 作者 集合 和 候选 作者 的 作品 集合 视 为 训练 数据 集 , 而 未 知 作者 的 文档 则 是 测试 数据 集 。 如 
果 能 确定 未 知 作者 的 文档 的 实际 作者 在 候选 作者 里 , 那么 这 就 是 一 个 封闭 式 问 题 (closed problem )。 
如 图 9-1 所 示 。 














可 能 的 作者 








图 9-1 
如 果 我 们 不 能 确认 候选 作者 中 有 文档 的 实际 作者 , 那么 这 就 是 一 个 开放 式 问题 ( open problem )。 














这 两 种 问题 的 区 别 不 是 只 存在 于 作者 归属 问题 中 , 而 是 普遍 存在 于 数据 按 掘 应 用 问题 中 , 当 训 练 
数据 集中 可 能 没有 实际 类 别 时 ， 该 问题 就 是 开放 式 问题 。 这 时 我 们 要 人 么 在 候选 作者 中 找 出 答案 ， 
要 么 排除 所 有 候选 作者 ， 如 图 9-2 所 示 。 




















ET 
总 成 总 训练 数据 集中 未 包含 的 
可 能 的 作者 可 能 的 作者 
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解决 作者 归属 问题 时 ， 通 常会 受到 如 下 两 种 限制 


口 第 一 个 限制 是 我 们 只 能 用 文档 的 内 容 信息 ， 而 不 能 用 成 稿 时 间 、 出 版 形式 和 笔迹 等 元 信 
息 。 如 果 把 这 些 信 息 也 纳入 模型 ， 通 常 我 们 就 不 认为 该 问题 是 作者 归属 问题 ， 而 认为 它 
是 一 种 数据 融合 ( data fusion ) 的 应 用 。 

口 第 二 个 限制 则 是 我 们 不 能 关注 文档 的 主题 ， 而 要 关注 更 明显 的 特征 ， 比 如 措辞 、 标 点 符 
号 等 其 他 基于 文本 的 特征 。 因 为 同一 个 作者 可 以 有 不 同 主题 的 作品 ， 所 以 文档 的 主题 不 
能 用 来 建立 作者 风格 模型 。 如 果 我 们 关注 主题 词 ， 就 会 导致 模型 过 拟 合 训练 数据 集 。 这 
是 因为 模型 是 在 相同 作者 的 同一 主题 的 作品 上 训练 的 。 例 如 ， 如 果 你 在 阅读 本 书 时 为 本 
书 作 者 建立 作者 风格 模型 ， 就 会 推 新 “数据 挖掘 ”一 词 可 以 代表 本 书 作 者 的 风格 ， 但 其 
实 本 书 作者 也 有 其 他 主题 的 作品 。 


从 这 里 开始 ， 我 们 用 来 执行 作者 归属 的 流水 线 就 与 第 6 章 中 开发 的 差不多 了 : 


(1) 首先 ， 从 文本 中 提取 特征 ; 
(2) 然后 ， 在 提取 出 的 特征 中 挑选 ; 
(3) 最 后 ， 训 练 分 类 算法 ,构建 模型 ， 以 预测 文档 的 类 别 ( 在 本 例 中 是 作者 )。 
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在 根据 内 容 进行 分 类 和 根据 作者 进行 分 类 之 间 存 在 一 些 差异 ,其 中 最 重要 的 差异 
0 就 是 特征 的 选取 ,本 章 将 会 涵盖 这 部 分 内 容 。 根据 不 同 应 用 场景 选取 特征 是 至 关 
重要 的 。 


在 深入 研究 这 些 问 题 之 前 ， 我 们 要 确定 问题 的 范围 并 且 采 集 一 些 数据 。 











9.2 获取 数据 


本 章 第 一 部 分 用 到 的 数据 是 古 腾 堡 计划 ( Project Gutenberg ) 中 的 图 书 (访问 www.gutenberg. 
org 即 可 下 载 )。 古 腾 堡 计划 是 一 个 公共 领域 文学 作品 的 知识 库 。 作 者 为 本 章 中 的 实验 选用 了 下 面 
这 些 作者 的 作品 : 


口 布 思 : 塔 金 顿 (Booth Tarkington )，22 本 ; 

口 查尔斯 狄更斯 ( Charles Dickens )，44 本 ; 

口 伊 迪 丝 . 内 斯 比特 (Edith Nesbit )，10 本 ; 

口 阿 瑟 . 柯南 道 尔 ( Arthur Conan Doyle )，51 本 ; 

口 马克 ' 吐 温 (Mark Twain )，29 本 ; 

口 理 查 德 . 弗朗西斯 伯 顿 一 士 (Sir Richard Francis Burton )，1 本 ; 
口 埃 米尔 加 博 里 奥 ( Emile Gaboriau )，10 本 。 




























































































其 中 共有 来 自 7 位 作者 的 177 个 文档 ， 这 为 我 们 提供 了 数量 可 观 的 、 可 供 操作 的 文本 数据 。 


9.2 ”获取 数据 153 








一 个 名 叫 get data.py 的 代码 包 中 提供 了 这 些 作品 的 标题 列表 、 下 载 链接 以 及 可 以 自动 获取 它 
们 的 脚本 。 要 是 代码 获取 到 图 书 数 量 远 少 于 上 述 数字 , 那么 可 能 是 古 腾 堡 计划 的 镜像 站 故障 。 访 
问 https:/www.gutenberg.org/MIRRORS.ALL 能 找到 更 多 的 镜像 站 URL， 你 可 以 尝试 将 它们 替换 
到 脚本 中 。 

















我 们 用 requests 库 下 载 这 些 图 书 文件 ， 并 将 其 放置 到 数据 目录 下 。 





首先 ， 开 启 一 份 新 的 Jupyter Notebook， 设 置 数据 目录 ， 确 保 下 面 的 代码 中 的 路 径 正 确 。 


import os 
import sys 
data_folder = os.path.join(os.path.expanduser ("~"), "Data", "books") 


接 下 来 , 用 Packt 出 版 社 提供 的 代码 包 下 载 数 据 , 把 文件 解压 到 数据 目录 中 。 之 后 , 在 books 
文件 夹 下 会 出 现 对 应 各 个 作者 的 文件 来。 























浏览 这 些 文件 , 你 就 会 发 现 它 们 相当 杂乱 一 一 至 少 从 数据 分 析 的 视角 看 是 这 样 。 在 文件 的 开 
头 会 有 大 段 的 古 腾 堡 计划 免责 声明 ， 在 我 们 执行 分 析 前 ， 应 该 删 掉 这 些 声明 。 


比如 ， 大 多 数 图 书 的 开头 包括 这 样 的 信息 。 








The Project Gutenberg eBook of Mugby Junction, by Charles Dickens, et al, Tllustrated by 
Jules A.Goodman This eBook is for the use of anyone anywhere at no cost and with almost no 
restrictions whatsoever. 
You may copy it, give it away or re-use it under the terms of the Project Gutenberg License 
included with this eBook or online at www.egutenberg.org 
Title: Mugby Junction 
Author: Charles Dickens 
Release Date: January 28, 2009 [eBook #27924]Laneguage: Enelish 
Character set encoding: UTF-S 
***TART OF THE PROJECT GUTENBERG EBOOK MUGBY JUNCTION*** 9 


此 后 的 文本 才 是 图 书 的 实际 内 容 。***START OF THE PROJECT GUTENBERG EBOOK MUGBY 
JUNCTION*** 字 样 相当 地 一 致 ， 因 此 我 们 能 根据 该 行文 字 确 认 正 文 开 始 ， 而 忽略 之 前 的 内 容 。 




















我 们 可 以 逐一 修改 磁盘 上 的 文件 , 删 掉 这 些 声明 。 但 要 是 丢失 了 数据 会 怎么 样 ? 我 们 不 仅 会 
丢失 所 做 的 改动 ， 还 可 能 无 法 重 现 研 究 。 为 此 ， 我 们 要 在 加 载 文 件 时 做 预 处 理 ( preprocssing )， 
以 确保 实验 结果 可 以 重 现 (只 要 数据 源 是 相同 的 )。 下 面 的 代码 会 从 图 书 中 去 除 主 要 的 噪声 源 ， 
也 就 是 古 腾 堡 计划 在 文件 前 添加 的 声明 信息 。 

def clean book (document): 


lines = document .split("n") 
start= 0 
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end = len(lines) 
for i in range(len(lines)): 
line = lines[il] 
if line.startswith("*** START OF THIS PROJECT GUTENBERG"): 
start = i + 1 
elif line.startswith("*** END OF THIS PROJECT GUTENBERG"): 
end “三 二 二 入 
return "n".join(lines[start:end]) 


你 可 能 还 想 用 这 个 函数 去 除 其 他 噪声 源 ， 比如 不 一 致 的 格式 、 脚 注 信息 等 。 这 就 
需要 调查 文件 内 容 以 发 现 更 多 问题 。 


现在 我 们 就 可 以 用 下 面 的 函数 获取 文档 和 类 别 。 它 会 在 文件 夹 之 间 循 环 , 加 载 文本 文档 然后 
记录 作者 所 对 应 的 目标 类 别 的 数值 。 


import numpy as np 


def load_ books_data(folder=data_folder): 
documents = [] 
authors = [] 
subfolders = [subfolder for subfolder in os.listdir(folder) 
if os.path.isdir(os.path.join(folder, subfolder))] 
for author_ number, subfolder in enumerate(subfolders): 
full_subfolder path = os.path.join(folder, subfolder) 
for document name in os.listdir(full_ subfolder_ path): 
with open(os.path.join(full_subfolder_ path, document_name) 
errors='ignore') as inf: 
documents.append(clean book (inf.read())) 
authors.append (author_number) 
return documents, np.array (authors, dtype='int') 


然后 ， 调 用 函数 以 加 载 图 书 。 


documents, classes = load_ books_data(data_folder) 





因为 这 个 数据 集 占 用 内 存 较 少 , 所 以 我 们 可 以 一 次 性 加 载 所 有 文本 。 如果 数据 集 
0 太 大 ， 内 存 空间 无 法 容纳 ， 就 要 逐个 (或 分 批 ) 从 文档 中 提取 特征 ， 并 把 提取 结 
果 的 值 保存 到 文件 或 者 内 存 中 的 矩阵 里 。 


一 般 在 估计 数据 属性 时 , 我 首先 会 为 文档 长 度 绘制 一 幅 直方 图 。 文 档 在 长 度 相对 一 致 时 , 通 
常 要 比 长 度 参差 不 齐 时 易于 学 习 。 本 例 中 的 各 文档 长 度 就 差异 很 大 。 首先 从 列表 中 提取 文档 长 度 ， 
看 一 下 情况 。 


document_lengths = [len(document) for document in documents] 


接 下 来 画 出 直方 图 。 在 matplotlib 中 , 可 以 用 hist () 函数 。 你 也 可 以 用 基于 matpltlip 
的 Seaborn 库 ， 它 的 默认 样式 更 美观 。 


import seaborn as sns 
sns.distplot (document_lengths) 
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代码 生成 的 图 表 中 展示 了 文档 长 度 的 变化 情况 ， 如 图 9-3 所 示 。 
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9.3 功能 词 的 使 用 


在 作者 分 析 领 域 早 期 的 各 类 特征 中 ， 有 一 个 特征 至 今 仍 能 发 挥 作 用 。 它 就 是 功能 词 ， 可 以 用 
于 词 袋 模型 。 功 能 词 就 是 那些 本 身 没有 重要 意义 , 但 在 组 成 (英语 ) 句子 时 必 不 可 少 的 词语 。 比 
如 ，this 和 which 这 种 词 就 是 本 身 意思 不 明显 ， 只 在 句子 中 才 有 特定 含义 的 词 。 与 之 相反 ,，tiger 
这 样 的 内 容 词 意义 明确 ， 用 在 句 中 能 让 人 想起 大 型 猫 科 动 物 的 形象 。 


哪些 词语 属于 功能 词 ? 这 个 问题 并 非 总 是 有 明确 的 答案 。 根据 经 验 , 我 们 可 以 选取 那些 使 用 
最 频繁 的 词语 (在 所 有 可 能 的 文档 中 选取 ， 而 不 局 限于 同一 作者 )。 

















一 般 而 言 ,使 用 越 频 繁 的 词语 ， 就 越 适 用 于 作者 分 析 。 相反 ,不 常 使 用 的 词 更 适 
0H 用 于 基于 内 容 的 文本 挖 气 任 务 。 下 一 章 就 会 介绍 基于 内 容 的 文本 控 氢 ,并 关注 不 
同文 档 的 主题 。 


图 9-4 直观 展示 了 词语 与 使 用 频率 的 关系 。 
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频率 〈 对 数 ) 





更 适 于 : 
一 作者 分 析 


内 容 分 析 一 





词语 〈 按 频率 排序 ) 














图 9-4 





功能 词 的 用 法 与 文档 内 容 不 甚 相关 ,而 更 多 取决 于 作者 的 想法 。 这 个 规律 使 得 功能 词 成 为 了 
区 分 不 同 作 者 的 有 力 特 征 。 例 如 ， 美 国人 会 在 句子 中 特地 区 分 that 和 which 的 用 法 ; 但 是 澳 大 利 











亚 人 就 不 在 意 这 种 区 别 。 也 就 是 说 ， 某 些 澳 大 利 





























人 总 是 用 that， 而 男 一 些 人 则 总 是 用 which。 


功能 词 使 用 习惯 上 的 不 同 ， 加 上 成 千 上 万 其 他 的 细微 差别 ， 就 形成 了 作者 分 析 的 模型 。 


9.3.1 统计 功能 词 


我 们 可 以 用 第 0 章 就 使 用 过 的 CountVectorizer 类 为 功能 词 计数 。 我 们 可 以 把 词汇 表 传 给 
这 个 类 以 查找 词语 。 如 果 我 们 没有 提供 词汇 表 (第 6 章 中 就 是 如 此 )， 该 类 就 会 从 训练 数据 集中 





学 习 词汇 表 。 文 档 所 构成 的 训练 数据 集 包含 








全 部 的 词语 ( 当然 ， 





这 要 依赖 于 其 他 参数 )。 








首先 ， 建 立 一 份 功能 词 的 词汇 表 ， 即 一 个 包含 了 每 个 功能 词 的 列表 。 究 竞 哪 些 词 是 功能 词 、 
哪些 不 是 还 有 待 商 榨 。 下 面 的 这 份 列表 , 结合 了 我 本 人 的 研究 和 别人 已 发 表 的 研究 , 效果 相当 不 
错 。 你 可 以 从 Packt 出 版 社 (或 者 官方 GitHub 仓库 ) 获取 代码 包 , 这 样 就 不 需要 手动 输入 这 个 列 























表 了 。 

function words = ["a", "able", "aboard", "about", "above", "absent" ， 
"according" , "accordingly", "across", "after", "against","ahead", 
"albeit", "all", "along", "alongside", "although", "am", "amid", "amidst", 
"among", "amongst", "amount", "an", "and", "another", "anti", "any", 
"anybody", "anyone", "anything", "are", "around", "as", "aside", 
"astraddle", "astride", "at", "away", "bar", "barring", "be", "because", 
"been", "before", "behind", "being", "below", "beneath", "beside", 
"besides", "better", "between", "beyond", "bit", "both", "but", "by", 
"amy Veerntalirniv; "eirea"7 CLIOSe" Teoncerning, "conesedquently", 
"considering", "could", "couple", "dare", "deal", "despite", "down", "due", 
"during", "each", "eight", "eighth", "either", "enough", "every", 
"everybody", "everyone", "everything", "except", "excepting", "excluding", 
"a ino", wW "rEewer .fifth -Ei J ELE EOLLIOWING .SEOrY., 
VEOUE.,. "OUPEN',. Efron Erontty. "qlvern,. MoO0d",. "ogreat "had half, 
"have", "he", "heaps", "hence", "her", "hers", "herself", "him", "himself", 
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"his", "however", "i", "if", "in", "including", "inside", "instead", 
LEG ISL, TLV /LESY "TESElLE Tt, WeeDino, vack "ess VIikeny 
"itt]e; "Loade™,. "Lotey maority™y. "manyy. "massees".y "may "nme, 
“might Tmines,. Tminority 

"minus", "more", "most", "much", "must", "my", "myself", "near", "need", 
"neither", "nevertheless", "next", "nine", "ninth", "no", "nobody", "none", 
"nor", "nothing", "notwithstanding", "number", "numbers", "of", "off", 


"on", "once", "one", "onto", "opposite", "or", "other", "ought", "our", 
"ours", "ourselves", "out", "outside", "over", "part", "past", "pending", 
"per", "pertaining", "place", "plenty", "plethora", "plus", "quantities", 
"quantity", "quarter", "regarding", "remainder", "respecting", "rest", 


"round", "save", "saving", "second", "seven", "seventh", "several", "shall", 
"she", "shoulgd", "similar", "since", "six", "sixth", "so", "some", 
"somebody", "someone", "something", "spite", "such", "ten", "tenth", "than", 
"thanks", "that", "the", "their", "theirs", "them", "themselves", "then", 
"thence", "therefore", "these", "they", "third", "this", "those", "though", 
"three", "through", "throughout", "thru", "thus", "till", "time", "to", 
"tons", "top", "toward", "towards", "two", "under", "underneath", "unless", 
viLiker, until"”; Sunto™y up, "uPOnN; SUS "USed",, "Varioume™, 

"versus", "via", "view", "wanting", "was", "we", "were", "what", "whatever", 
"when", "whenever", "where", "whereas", "wherever", "whether", "which", 
"whichever", "while", "whilst", "who", "whoever", "whole", "whom", 
"whomever", "whose", "will", "with", "within", "without", "would", "yet", 
"you", "your", "yours", "yourself", "yourselves"] 


现在 ， 我 们 就 可 以 设置 提取 器 ， 为 功能 词 计数 。 注 意 要 把 功能 词 的 列表 vocabulary 传 给 
CounVectorizer 的 初始 化 函数 。 代 码 如 下 。 


from sklearn.feature extraction.text 
import CountVectorizer 
extractor = CountVectorizer (vocabulary=function words) 


如 你 期 望 的 一 样 ,这 组 功能 词 在 文档 中 出 现 的 频率 非常 高 。 训 练 提取 器 实例 以 使 其 适应 数据 ， 
然后 用 提取 器 取出 计数 并 调用 transform() (或 者 直接 调用 快捷 方法 fit_transform() )。 代 
码 如 下 。 


extractor.fit (documents) 
counts = extractor.transform(documents) 


在 绘图 之 前 , 要 通过 除 以 相应 的 文档 长 度 的 方式 对 这 些 计数 进行 归 一 化 处 理 。 下 面 的 代码 就 
是 如 此 ， 它 会 返回 功能 词 在 所 有 词 中 所 占 的 百分比 。 


normalized_ counts = counts.T / np.array (document_lengths) 
在 所 有 文档 的 范围 内 取 平 均 百 分 比 。 
averaged_counts = normalized_ counts.mean (axis=1) 


最 后 用 matplotlib 绘图 ( Seaborn 缺少 这 样 的 基本 绘图 接口 )。 


from matplotlib import pyplot as plt 
plt.plot (averaged_ counts) 
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结果 如 图 9-5 所 示 。 
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9.3.2 ”用 功能 词 分 类 


本 节 介 绍 的 唯一 新 内 容 就 是 支持 向 量 机 ( SVM ，support vector machine ) 的 使 用 方法 。 目 前 
你 可 以 只 把 它 当 成 是 标准 的 分 类 算法 ， 我 们 在 下 一 节 会 详细 介绍 它 。 


接 下 来 ， 导 入 要 用 到 的 类 。 导 入 用 于 分 类 的 支持 向 量 机 类 SVC， 还 有 我 们 之 前 就 介绍 过 的 
其 他 标准 工作 流程 工具 。 


from sklearn.svm import SVC 
from sklearn.model_selection import cross_val_score 
from sklearn.pipeline import Pipeline from sklearn import gridqd_ search 


支持 向 量 机 接受 的 参数 数量 很 多 ,因为 在 下 一 节 才 会 对 其 进行 详细 介绍 , 所 以 这 里 我 们 将 随 
意 选 择 一 个 参数 。 之 后 , 用 一 个 字典 设置 要 搜索 的 参数 。 对 于 kernel 参数 , 我 们 要 尝试 1inear 
和 rbf。 针 对 C， 我 们 要 尝试 1 和 10〈 下 一 节 会 介绍 这 些 参数 ) 然后 创建 网 格 搜索 实例 ， 搜 索 
这 些 参数 的 最 优 值 。 

parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]} 


Se = SVEU) 
grid = grid_ search.GridSearchCV(svr, parameters) 


全 高 斯 核 函 数 ( 比如 RBF ) 对 数据 集 的 大 小 有 要 求 ， 比 如 特征 数量 要 小 于 10 000。 
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接 下 来 , 设置 一 条 流水 线 , 使 其 以 countvectorizer (只 用 功能 词 ) 作为 提取 特征 的 步骤 ， 
用 SVM 进行 网 格 搜索 。 代 码 如 下 。 


pipelinel = Pipeline([('feature extraction', extractor), ('clf', grid) ]) 


然后 ， 应 用 cross_val_score 得 出 这 个 流水 线 的 交叉 验证 分 数 。 结 果 是 0.811， 这 意味 着 
我 们 的 预测 正确 率 约 为 80%。 


9.4 支持 向 量 机 


文 持 向 量 机 分 类 算法 的 实现 思路 虽然 简单 而 直观 , 其 背后 却 隐藏 着 一 些 复杂 且 具 有 创新 性 的 
数学 原理 。 支 持 向 量 机 通过 在 两 个 类 别 ( 我们 可 以 用 各 种 元 算法 扩展 支持 向 量 机 ， 以 让 它 支 持 更 
多 的 类 别 ) 之 间 画 出 一 条 分 割 线 (或 是 高 维度 中 夯 出 超 平面 ) 来 进行 分 类 。 其 直观 思路 即 选 出 一 
条 最 好 的 分 割 线 ， 而 不 是 用 任意 的 直线 来 分 割 。 


设想 ， 有 一 条 直线 可 以 划分 出 两 个 类 别 ,， 使 直线 之 上 的 点 属于 一 个 类 别 ， 直 线 之 下 的 点 属于 
另 一 个 类 别 。 支 持 向 量 机 会 找 出 这 条 直线 ， 其 方法 跟 线 性 回归 ( linear regression ) 基本 一 样 。 只 
不 过 支持 向 量 机 会 针对 数据 集 找 出 一 条 最 佳 的 分 割 线 。 在 图 9-6 中 有 3 条 分 割 数 据 集 的 直线 ， 颜 
色 分 别 是 蓝 色 、 黑 色 和 红色 。 你 认为 哪 条 是 最 佳 的 分 割 线 ? 





































































































图 9-6 


通常 ,一 般 人 直观 上 会 认为 蓝 色 的 直线 是 最 佳 的 分 割 线 ,因为 这 条 直线 的 分 割 方法 最 为 干净 
利落 。 更 规范 地 讲 , 这 条 直线 到 每 个 类 别 中 的 任意 点 的 距离 都 是 最 大 的 。 寻 找 最 大 分 割 线 的 思路 ， 




















160 第 9 章 作者 归属 问题 

















是 找 出 与 分 类 边界 距离 最 大 的 直线 。 这 是 一 个 最 优化 问题 ,而 支持 向 量 机 训练 中 的 主要 任务 就 
是 解决 这 个 最 优化 问题 。 
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虽然 支持 向 量 机 的 数学 原理 及 公式 超出 了 本 书 范畴 ,不 过 我 推荐 感 兴趣 的 读者 阅 
@ 读 一 下 这 部 分 的 派生 内 容 ， 以 了 解 更 多 详情 。 


请 在 Wikibooks 网 站 上 搜索 “Support Vector Machines”， 或 登陆 OpenCV 网 站 ， 
搜索 “Introduction to Support Vector Machines”。 


9.4.1 用 支持 向 量 机 分 类 


在 训练 模型 后 , 我 们 就 有 了 一 条 分 类 边界 最 大 的 分 割 线 。 分 类 新 样本 就 变 成 了 这 样 简单 的 问 
题 : 样本 落 在 分 割 线 之 上 还 是 分 割 线 之 下 ? 如 果 在 分 割 线 之 上 ， 就 预测 为 菜 个 类 别 ; 如 果 在 分 割 
线 之 下 ， 就 预测 为 男 一 个 类 别 。 


处 理 多 个 类 别 时 , 我们 会 创建 多 个 支持 向 量 机 , 使 其 中 每 一 个 都 作为 一 个 二 值 分 类 器 ,然后 
再 用 多 种 策略 中 的 某 一 种 把 它们 连接 到 一 起 。 这 里 介绍 一 种 简单 的 策略 。 为 每 个 类 别 创建 一 个 一 
对 多 ( one-versus-all ) 分 类 器 ， 即 把 数据 集 划 成 给 定 类 别 样本 和 所 有 其 他 类 别 的 样本 两 部 分 ， 并 
将 其 视 为 具有 两 个 类 别 ; 然后 为 每 个 类 别 都 创建 这 样 的 分 类 器 , 并 且 在 每 个 新 样本 上 运行 这 个 分 
类 器 ， 从 而 选取 最 匹配 的 预测 结果 。 大 多 数 支 持 问 量 机 实现 会 自动 执行 这 个 过 程 。 


在 前 面 的 代码 中 我 们 看 到 了 这 两 个 参数 : C 和 kernel ( 核 函数 )。 我 们 在 下 一 节 会 介绍 
kernel 参数 。 而 c 参数 是 一 个 训练 支持 向 量 机 的 重要 参数 ， 参 数 与 权衡 样本 预测 结果 的 正确 率 
与 过 拟 合 风险 有 关 。 取 较 高 的 c 值 能 找 出 分 类 间隔 更 小 的 分 割 线 , 训练 样本 的 分 类 结果 更 可 能 正 
确 ; 取 较 低 的 c 值 会 找 出 分 类 间隔 更 大 的 分 割 线 , 然而 这 样 会 导致 某 些 训练 样本 分 类 错误 。 这 就 
是 说 ， 较 低 的 c 值 不 太 可 能 导致 过 拟 合 ， 但 容易 选 出 效果 较 差 的 分 割 线 。 


支持 癌 量 机 有 一 种 ( 由 其 基本 形式 带 来 的 ) 局 限 性 : 只 能 分 割 可 以 被 线性 分 割 数据 。 如 果 数 
据 不 能 被 线性 分 割 的 话 要 如 何 处 理 呢 ? 为 解决 这 一 问题 ， 核 函数 ( kernel ) 应 运 而 生 。 

























































































9.4.2” 核 函数 


在 数据 不 能 线性 分 割 时 ， 分 割 的 诀窍 是 把 数据 伐 入 到 高 维 空间 中 。 它 的 含义 ， 一 言 以 蔽 之 ， 
就 是 向 数据 集中 添加 新 特征 ， 直 到 数据 可 以 被 线性 分 割 。 如 果 你 加 入 的 特征 类 型 正确 , 那么 线性 
分 割 的 情况 终 将 出 现 。 


在 寻找 数据 集 的 最 佳 分 隔 线 时 ,通常 要 计算 样本 的 内 积 ( inner-product )。 给 定 一 个 点 积 的 函 
数 ， 就 能 有 效 地 创建 特征 ， 而 无 须 实际 定义 新 特征 。 这 就 是 被 称 为 “ 核 ” 的 技巧 。 因 为 我 们 不 必 
知道 这 些 特征 要 变 成 什么 样子 , 所 以 这 个 方法 非常 便于 使 用 。 现 在 我 们 把 核定 义 为 数据 集中 两 个 
样本 点 积 的 函数 ， 而 不 是 基于 样本 ( 还 有 构造 的 特征 ) 本 身 的 函数 。 
































过 












































可 


9.5 ”字符 nn 元 语法 161 





我 们 可 以 计算 〈 或 估计 ) 点 积 以 备 后 续 使 用 。 


常用 的 核 函数 有 很 多 。 线 性 核 函 数 (linear kernel ) 是 最 直接 的 一 种 ， 它 只 是 两 个 样本 特征 向 
量 的 点 积 、 权 重 特征 和 偏差 值 。 还 有 多 项 式 核 函数 (polynomial kernel )， 计 算 点 积 给 定 次 数 
(例如 ，2 ) 的 多 项 式 。 其 他 的 还 有 高 斯 〈 径 向 基 ) 核 函 数 ( Gaussian rbf，radial basis function ) 
和 Sigmoidal 核 函 数 。 在 上 一 节 的 例子 中 ， 我 们 测试 了 线性 ( linear ) 核 函 数 和 rbf 核 函数 选项 。 
所 有 这 些 推导 的 最 终结 果 表明 ,这 些 核 函数 所 定义 的 两 个 样本 间 的 距离 ， 在 支持 向 量 机 为 
新 样本 分 类 时 表现 出 色 。 但 在 支持 向 量 机 训练 时 产生 的 最 优化 问题 上 , 这 些 方法 实现 的 难 易 程度 
不 一 。 


在 scikit-learn 的 支持 向 量 机 实现 中 ,我 们 可 以 根据 kernel 参数 选取 不 同 的 核 函 数 参 
与 计算 ， 上 一 节 中 的 代码 就 是 如 此 。 















































9.5 字符 n 元 语法 


在 预测 文档 作者 的 问题 中 , 我 们 已 经 见 过 了 将 功能 词 作为 特征 的 方法 。 此 外 , 我 们 还 可 以 用 
另 一 种 特征 形式 : 字符 n 元 语法 。n 元 语法 是 n 个 标记 (token ) 的 序列 ， 其 中 是 一 个 数值 (对 
于 文本 而 言 通常 是 2~6 )。 许 多 像 前 一 章 那 样 与 文档 主题 相关 的 研究 使 用 了 词语 n 元 语法 。 不 过 
在 作者 归属 问题 中 ， 久 经 考验 量 效 果 突 出 的 是 字符 n 元 语法 。 


在 文本 文档 中 找 出 字符 n 元 语法 ,就 要 先 把 文档 表示 成 字符 的 序列 ,之 后 从 序列 中 提取 n 元 
语法 并 训练 模型 。 这 种 用 途 的 模型 数量 很 多 , 不 过 其 中 的 一 种 标准 模型 与 我 们 之 前 用 过 的 词 袋 模 
型 很 类 似 。 

我 们 要 为 训练 语料库 中 的 每 个 不 同 n 元 语法 创建 一 个 特征 。 比 如 元 语法 <e t> 就 是 字母 6、 
空格 和 字母 t( 尖 括 号 不 包含 在 内 ， 只 是 用 来 指示 n 元 语法 的 开头 和 结尾 )。 之 后 ,我 们 根据 训练 
文档 的 元 语法 频率 训练 模型 ， 然 后 用 创建 好 的 特征 矩阵 训练 分 类 带 。 


































































































字符 nn 元 语法 有 多 种 定义 方式 。 比 如 某 些 应 用 忽略 空格 和 标点 符号 , 只 选用 词 内 
Ei 字符 。 但 有 些 应 用 则 会 把 这 些 信息 用 于 分 类 ( 比如 我 们 在 本 章 的 实现 )。 归 根 结 
底 ， 模 型 的 用 途 取决 于 数据 挖 气 人 员 ( 也 就 是 你 ! ) 的 选择 。 


一 种 关于 字符 n 元 语法 能 奏效 的 原因 一 般 性 理论 是 人 们 通常 写 的 都 是 容易 说 的 词 ， 而 字符 n 
元 语法 (n 至 少 是 2~6 的 值 时 ) 则 近似 音素 (phoneme )。 音 素 是 我 们 讲 出 词语 时 的 发 音 。 这 种 意 
义 下 ,字符 n 元 语法 近似 词语 的 发 音 ， 而 发 音 又 近似 写作 风格 。 创 建新 特征 的 常见 模式 是 : 首先 
搞 清楚 什么 样 的 概念 会 影响 最 终结 果 (作者 风格 )， 然 后 创建 近似 这 些 概念 的 特征 或 能 够 测量 这 
些 概 念 的 特征 。 


字符 半 元 语法 矩阵 有 一 个 关键 的 特性 ， 那 就 是 它 是 稀 琉 矩阵 ,7 值 越 大 越 稀 焉 ， 而 且 稀 琉 程 
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度 变 化 相当 大 。 车 值 为 2, 则 特征 和 矩阵 中 75% 的 值 都 是 零 值 ; 而 n 值 为 5 时 , 则 特征 矩阵 中 93% 
以 上 的 值 都 是 零 值 。 因 为 字符 n 元 语法 矩阵 不 但 与 词语 n 元 语法 矩阵 属于 同一 类 型 ,而 且 相 比 之 
下 其 稀 玻 程度 要 低 一 些 ， 所 以 在 使 用 基于 词语 的 分 类 器 时 不 会 出 现 很 多 问题 。 




















提取 字符 7 元 语法 


我 们 要 用 countVvectorizer 类 提取 字符 n 元 语法 。 为 此 , 我 们 要 设置 分 析 器 参数 ,指定 一 
个 提取 nn 元 语法 的 n 值 。 


scikit-learn 中 的 元 语法 实现 会 为 n 值 设 定 一 个 取 值 范围 , 并 支持 同时 提取 多 个 n 值 的 
n 元 语法 。 然而 因为 本 例 中 的 实验 不 深究 多 个 n 值 的 用 法 , 所 以 我 们 会 设置 相同 的 值 范围 边界 ， 
即 设置 固定 的 n 值 。 要 提取 三 元 语法 ， 就 需要 指定 (3, 3) 的 n 值 范围 。 


我 们 可 以 重新 使 用 之 前 网 格 搜索 的 代码 。 我 们 需要 做 的 就 是 在 新 的 流水 线 中 指定 新 的 特征 提 
取 需 ， 然 后 运行 它 。 


pipeline = Pipeline([('feature extraction', 
CountVectorizer (analyzer='char', ngram range=(3,3))), 
('classifier', grid)] 

scores = cross_ val_score(pipeline, documents, classes, scoring='F1') 

print ("Score: {:.3f}".format (np.mean(scores))) 

















功能 词 和 字符 n 元 语法 中 隐 含 着 很 多 重 爱 的 部 分 ,因为 在 功能 词 中 字符 序列 的 出 
现 频 率 更 高 。 不过， 两 种 方法 的 实际 特征 大 有 不 同 。 字符 nn 元 语法 会 捕获 标点 符 

0 号 , 而 这 是 功能 词 方 法 不 具备 的 特点 。 例如 ,字符 nn 元 语法 会 包括 句子 结尾 的 句 
号 ， 而 基于 功能 词 的 方法 只 会 采用 向 号 前 的 词语 本 身 。 


9.6 安然 〈Enron) 数据 集 


安然 公司 ( Enron Corporation ) 曾 是 世界 上 最 大 的 能 源 公 司 之 一 ,成 立 于 20 世纪 90 年 代 末 ， 
营业 收入 超过 1000 亿美 元 。 在 2000 年 时 , 安然 公司 已 拥有 超过 20 000 名 员工 , 而 当时 人 们 看 不 
出 有 一 些 东西 已 经 偏离 了 轨道 。 


2001 年 ， 安 然 公 司 被 发 现存 在 蓄意 的 系统 性 财务 造假 ， 安 然 丑 闻 ( Enron Scandal ) 爆发 。 整 
个 公司 都 参与 了 造假 行为 ， 而 且 涉 及 金额 巨大 。 在 丑闻 公之于众 后 ， 安 然 公 司 的 股价 从 2000 年 
的 90 美元 跌落 至 2001 年 的 1 美元 。 不 久 后 ， 安 然 公司 申请 了 破产 保护 ， 而 其 残局 花 了 5 年 时 间 
才 处 理 完毕 。 


作为 针对 安然 公司 的 调查 的 一 部 分 ， 美国 联邦 能 源 管理 委员 会 ( Federal Energy Regulatory 
Commission ) 公开 了 超过 60 万 份 安然 公司 的 电子 邮件 。 自 此 ,这 份 数 据 集 就 被 应 用 到 各 类 研究 中 ， 
其 中 包括 社交 网 络 分 析 和 欺诈 行为 分 析 。 因 为 我 们 可 以 从 这 份 数据 集中 提取 来 自 各 个 用 户 发 件 箱 的 
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邮件 ， 所 以 它 同 样 也 非常 适用 于 作者 分 析 。 这 也 让 我 们 有 了 一 份 从 前 十 分 罕见 的 大 型 数据 集 。 





9.6.1 获取 安然 数据 集 
安然 公司 电子 邮件 的 完整 数据 集 可 以 从 https:/www.cs.cmu.edu/~./enron/ 下 载 。 





完整 的 数据 集 相 当 大 ， 而 且 其 格式 是 gzip 这 种 压缩 格式 。 如 果 你 没有 基于 Linux 
的 计算 机 ， 不 能 解压 缩 这 个 文件 ， 那 么 你 也 可 以 使 用 7-zip 这 样 的 替代 程序 。 


下 载 完 整 的 语料库 并 将 其 解压 到 你 的 数据 文件 夹 中 。 默 认 状 态 下 ， 它 会 被 解压 到 一 个 名 为 
enron_mail_20110402 的 文件 夹 中 ， 其 中 包含 一 个 名 为 maildir 的 文件 夹 。 在 笔记 本 中 设置 
安然 数据 集 的 数据 文件 来， 代码 如 下 。 


enron data_ folder = os.path.join(os.path.expanduser ("~"), "Data", 
"enron mail 20150507", "maildir") 





9.6.2 ”创建 数据 集 加 载 函 数 


因为 我 们 关注 的 是 作者 信息 ,所 以 只 需要 能 找到 特定 作者 的 电子 邮件 。 为 此 , 我 们 会 在 每 个 
用 户 的 发 件 文件 夹 中 寻找 他 们 发 出 的 电子 邮件 。 我 们 现在 可 以 创建 一 个 函数 , 随机 选取 几 个 用 户 ， 
并 返回 他 们 发 件 文件 夹 中 的 每 封 电子 邮件 。 需 要 明确 的 一 点 是 ， 我 们 关注 的 是 电子 邮件 的 内 容 ， 
而 不 是 电子 邮件 本 身 。 要 满足 这 一 需求 就 需要 一 个 电子 邮件 解析 器 。 代 码 如 下 。 


from email.parser 
import Parser p = Parser() 


我 们 之 后 会 用 它 从 数据 文件 夹 下 的 电子 邮件 文件 中 提取 内 容 。 


在 我 们 的 数据 加 载 函 数 中 会 有 很 多 选项 , 其 中 多 数 确 保 了 数据 集 相对 均匀 。 某 些 用 户 可 能 发 
送 过 上 千 封 电子 邮件 ,而 另 一 些 用 户 则 可 能 只 发 送 过 几 十 封 邮件 。 我们 用 min_qocs_author 参 
数 限定 ， 只 在 发 送 过 至 少 10 封 电子 邮件 的 用 户 中 搜索 。 再 用 max_docs_author 参数 限定 ， 对 
每 个 用 户 ， 只 采纳 最 多 100 封 邮件 到 数据 集 。 我 们 还 通过 num_authors 参数 指定 了 要 获取 的 用 
户 数 ， 默 认 状 态 下 数目 为 10。 


函数 定义 见 下 面 的 代码 。 其 主要 目的 是 迭代 用 户 , 取出 该 用 户 的 电子 邮件 , 然后 在 儿 个 列表 
中 存储 文档 和 类 别 信息 。 我 们 还 会 存储 用 户 名 与 对 应 类 别 数值 的 映射 ， 以 便 随 后 取 回 这 些 信息 。 


from sklearn.utils import check_random state 






























































def get_enron corpus (num_ authors=10, data_folder=enron data_ folder, 
min_docs_author=10, 
max_docs_author=100, random_ state=None): 
random_state = check_random state(random state) 
email_addresses = sortedl(os.listdir(data_folder)) 
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# 随机 打 乱 用 户 。 利 用 random_state 重 现 打 乱 的 顺序 
random_state.shuffle(email_addresses) 


# 设置 存储 信息 ( 包括 用 户 信息 在 内 ) 的 数据 结构 


documents = [] 
classes = [] 
authot Ti :SQ 
authors = {} # 映射 用 户 名 和 类 别 值 
for user in email_addresses: 
users_email_folder = os.path.join(data_folder, user) 
mail_folders = [os.path.join(users_ email_ folder, subfolder) 
for subfolder in os.listdir(users_email_ folder) 
if "sent" in subfolder] 
ts 
authored_emails = [open(os.path.join(mail_folder, email filename), 
encoding='cpl1252').read() 
for mail_folder in mail_ folders 
for email_filename in 
os.listdir(mail_folder)] 
except IsADirectoryError: 
continue 
if lenl(authored emails) < min docs_author: 
continue 
if lenl(authored emails) > max_ docs_author: 
authored_emails = authored emails[:max_docs_author] 
# 解析 电子 邮件 ， 把 内 容 存储 到 documents 中 ， 并 把 用 户 记录 在 classes 列表 中 。 
contents = [pb.parsestr(emalil)._ payload for email in 
authored_emails] 
documents.extend (contents) 
classes.extend([author _ num] * len(authored_ emails)) 
authors[user] = author_num 
author_ num += 1 
if author_ num >= num authors or author num >= len(email_ addresses): 
break 
return documents, np.array (classes), authors 


我 们 给 电子 邮件 地 址 排序 却 只 是 为 了 将 其 打 乱 , 这 看 起 来 很 奇怪 。 这 是 因为 ,由 
于 os .1istdir 不 能 保证 每 次 返回 的 结果 一 致 ， 所 以 我 们 首先 要 对 结果 排序 ， 
0 以 保证 顺序 稳定 , 之 后 再 指定 随机 状态 打 乱 电子 邮件 地 址 , 这 样 才能 在 有 需要 的 
时 候 重 现 以 前 的 打 乱 顺序 。 
通过 在 函数 体外 调用 函数 ， 可 以 得 到 一 份 数 据 集 。 这 里 我 们 用 的 随机 状态 是 14， 本 书 中 一 
贯 如 此 。 不 过 你 也 可 以 尝试 其 他 的 值 ， 或 者 干脆 设置 成 None， 让 函数 每 次 调用 时 都 返回 随机 顺 
序 的 结果 。 


documents, classes, authors = get_enron_corpus ( 
data_folder=enron data_folder, random state=14) 


如 果 留 意 一 下 数据 集 , 你 就 会 发 现 我 们 还 需要 对 它 做 进一步 的 预 处 理工 作 。 我 们 的 电子 邮件 
相当 杂乱 ,最 糟糕 的 地 方 之 一 ( 以 作者 分 析 的 立场 而 言 ) 就 是 这 些 电子 邮件 中 还 包含 来 自 其 他 用 
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户 的 内 容 , 也 就 是 回复 邮件 时 附带 的 原文 。 比 如 我 们 来 看 一 下 这 封 电子 邮件 , aocuments[1001。 


Iwould like to be on the panel but I have on a conflict on the conference 
dates. Please keep me in mind for next year. 
Mark Haedicke 


电子 邮件 的 格式 非常 杂乱 ， 可 谓 臭 名 上 昭著。 比如 回复 中 的 引用 ， 有 时 (而 又 不 总 
0 是 ) 以 “>” 字 符 开 头 。 而 有 时 候 ， 回复 中 会 谱 入 原始 内 容 。 为 了 获得 更 好 的 结果 ， 
在 大 规模 的 电子 邮件 中 做 数据 挖 握 的 时 候 ， 你 要 多 花 一 些 时 间 把 数据 清理 干净 。 
我 们 可 以 像 处 理 图 书 数据 集 那 样 ， 画 出 文档 长 度 的 直方 图 , 以 了 解 文档 长 度 的 分 布 情况 ， 见 
9-7。 


document_lengths = [len(document) for document in documents] 
sns.distplot (document_lengths) 


短文 档 在 结果 中 的 聚集 非常 明显 , 另外 也 能 看 出 有 些 文档 非常 长 。 这 种 两 极 分 化 会 使 结果 出 
现 侦 斜 ， 在 某 些 作者 倾向 于 长 篇 大 论 时 尤其 明显 。 为 了 抵消 这 一 影响 ， 我 们 可 以 扩展 本 节 工 作 ， 
对 文档 长 度 进行 归 一 化 处 理 ， 只 取 前 500 个 字符 用 于 训练 。 
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9.7 组 装 成 型 

我 们 可 以 采用 之 前 实验 中 的 参数 空间 和 分 类 器 , 这 样 一 来 , 我 们 只 需要 在 新 数据 上 重新 训练 
即 可 。scikit-learn 中 的 训练 默认 都 是 从 头 开 始 的 ， 也 就 是 说 只 要 调用 fit () 就 会 丢弃 之 前 
的 训练 信息 。 








有 一 类 叫 在 线 训练 (online training ) 的 算法 ， 可 以 在 遇 到 新 样本 时 更 新 训练 信息 
而 不 用 每 次 都 从 头 开 始 训练 。 


像 之 前 一 样 ， 我 们 用 cross_val_score 计算 分 数 ， 然 后 打印 出 结果 。 代 码 如 下 。 


scores = cross_val_score(pipeline, documents, classes, scoring='f1') 
print ("Score: {:.3f}".format (np.mean(scores))) 


结果 是 0.683。 对 于 这 样 一 个 杂乱 无 章 的 数据 集 来 说 ， 这 个 得 分 还 是 较为 合理 的 。 若 想 要 改 
善 结果 ， 你 既 可 以 添加 更 多 数据 (如 增加 数据 集 的 加 载 步 又 中 的 max_docs_author 参数 ), 也 
可 以 做 一 些 额 外 的 清理 工作 ， 提 升 数据 本 身 的 质量 。 




















9.8 ”评估 


般 而 言 ， 只 通过 单一 数值 评估 算法 并 不 合适 。 比 如 F-score， 相 比 其 他 花哨 的 、 会 打出 无 

用 高 分 的 方法 ， 它 就 不 太 会 被 干扰 。 这 些 花 哨 方法 的 一 个 例子 就 是 准确 率 。 就 像 上 一 章 中 我 们 提 
到 的 ， 如 果 一 个 垃圾 信息 分 类 器 总 是 把 一 切 都 预测 为 垃圾 信息 ， 那 么 它 也 能 达到 80% 的 准确 率 ， 
但 是 这 样 的 设计 毫 无 实用 价值 。 因 此 ， 对 结果 进行 深 挖 是 很 有 必要 的 。 

我 们 可 以 像 第 8 章 一 样 从 混淆 矩阵 开始 。 不 过 在 开始 前 ,需要 对 一 份 测试 数据 集 做 预测 。 之 
前 代码 中 所 用 的 cross_val_score 不 能 返回 训练 好 的 模型 供 我 们 使 用 。 因 此 , 我 们 需要 重新 训 
练 一 个 模型 ， 也 就 需要 分 割 训 练 数据 集 和 测试 数据 集 。 

from sklearn.cross_validation import train test_split training documents, 


testing_documents, y_train, y_test = train test_ split (documents, classes, 
random_ state=14) 


接 下 来 ， 用 训练 文档 训练 流水 线 ， 然 后 在 测试 数据 集中 执行 预测 。 


pipeline.fit (training_ documents, y_train) 
y_pred = pipeline.predict (testing_documents) 


到 了 这 一 步 ， 你 也 许 想 看 一 下 最 佳 参 数组 合 是 什么 样子 的 。 我 们 可 以 从 网 格 搜索 对 象 ( 流水 
线 中 的 分 类 需 步 又 ) 中 提取 参数 信息 。 


print (Pipeline.named_steps['classifier'].best_params_) 


这 会 返回 分 类 顺 的 所 有 人 参数。 不 过 大 多 数 参 数 是 未 经 修改 的 默认 值 , 我 们 只 搜索 了 c 和 kernel 
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的 参数 ， 它 们 分 别 被 设置 为 1 和 1inear。 
现在 就 可 以 创建 一 个 混 消 矩阵 了 。 


from sklearn.metrics import confusion matrix 
cm = confusion matrix(y_pred, y_test) 
cm = cm / cm.astype (np.float).sum(axis=1) 


接 下 来 ， 从 加 载 安然 数据 集 时 产生 的 authors 字典 取出 邮件 作者 的 名 字 ， 这 就 给 图 中 的 轴 
做 好 了 刻度 标记 。 代 码 如 下 。 


sorted_ authors = sorted(authors.keys(), key=lambda x:authors[x]) 


最 后 用 matplotlib 为 混淆 矩阵 绘图 。 此 处 代码 与 上 一 章 的 代码 稍微 有 一 些 不 同 : 之 前 的 
字母 标签 被 蔡 换 成 了 本 章 实验 中 的 邮件 作者 。 
smatplotlib inline 


from matplotlib import pyplot as plt 
plt.figure(figsize=(10,10)) 








plt.imshow(cm, cmap='Blues', interpolation='nearest') 
tick_ marks = np.arange (len(sorted authors)) 
plt.xticks (tick marks, sorted authors) 
plt.yticks (tick marks, sorted authors) 
plt.ylabel('Actual') 

plt.xlabel ('Predicted') 

plt.show!() 

结果 如 图 9-8 所 示 。 

















图 9-8 
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我 们 可 以 看 出 大 多 数 场景 下 预测 出 的 邮件 作者 是 正确 的 一 一 图 9-8 中 对 角 线 清晰 ， 对 角 线 上 
的 值 也 很 大 。 不 过 也 有 一 些 错 误 预测 频 发 的 数据 源 ( 值 越 大 ， 颜色 越 深 )。 例 如 用 户 rapp-b 的 邮 
件 就 经 常 被 预测 为 reitmeyer-j 的 。 


9.9 本 章 小 结 


在 本 章 中 , 我 们 研究 了 基于 文本 挖掘 的 作者 归属 问题 。 在 研究 过 程 中 , 我 们 分 析 了 两 种 类 型 
的 特征 : 功能 词 和 字符 n 元 语法 。 对 于 功能 词 , 我们 可 以 对 事先 选 好 的 词 使 用 词 袋 模型 ,然后 计 
算出 这 些 词 的 频率 。 对 于 字符 n 元 语法 , 我 们 用 同样 的 类 实现 了 类 似 的 工作 流程 , 但 换 用 了 针对 
字符 而 不 是 词 的 分 析 器 。 此 外 , 元 语法 是 一 行 中 个 标记 的 序列 。 对 于 字符 n 元 语法 而 言 ， 标 
记 则 是 字符 。 因 为 词语 元 语法 能 很 方便 地 提供 词语 用 法 的 上 下 文 信息 ,所 以 它 在 某 些 应 用 中 也 
值得 一 试 。 

我 们 用 支持 向 量 机 实现 了 分 类 功能 , 它 会 遵循 分 割 间 隔 最 大 的 基准 , 找 出 最 优 的 类 别 分 割 线 ， 
使 分 割 线 之 上 的 样本 属于 一 个 类 别 , 而 分 割 线 之 下 的 样本 属于 另 一 个 类 别 。 与 其 他 分 类 任务 一 样 ， 
此 时 我 们 也 需要 样本 集 ( 本 章 中 是 文档 集 )。 


之 后 我 们 处 理 了 一 份 非常 杂乱 的 数据 集 : 安然 电子 邮件 数据 集 。 由 于 这 份 数据 集中 包含 很 多 
人 为 干扰 和 其 他 问题 ， 因 而 其 结果 准确 率 低 于 显然 更 规整 的 图 书 数据 集 。 不 过 在 10 个 备 选 邮件 
作者 中 ， 我 们 有 一 半 以 上 的 概率 能 找 出 正确 的 邮件 作者 。 

为 加 深 对 本 章 概 念 的 理解 , 你 可 以 尝试 一 下 包含 作者 信息 的 新 数据 集 。 比 如 你 可 以 预测 博客 
文章 的 作者 或 者 推 文 的 作者 ( 你 可 以 重复 利用 第 6 章 的 数据 )。 

下 一 章 要 探究 的 是 在 没有 目标 类 别 的 时 候 怎么 给 样本 划 定 类 别 。 这 就 是 所 谓 的 无 监督 学 习 
( unsupervised learning )。 相 对 有 目标 类 别 的 预测 问题 而 言 ， 它 是 探索 性 的 问题 。 在 下 一 章 中 ,我 
们 将 继续 处 理 杂 乱 的 文本 数据 集 。 
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在 前 面 大 多 数 章节 中 ,数据 挖掘 任务 有 明确 的 目的 。 在 训练 阶段 ,我 们 用 目标 类 别 学 习 我 们 
的 特征 如 何 对 目标 建 模 ， 让 算法 设置 内 部 参数 ， 以 最 大 化 其 学 习 效 果 。 这 种 有 训练 目标 的 学 习 过 
程 叫 作 监督 学 习 (supervised learning )。 然 而 本 章 将 要 研究 没有 目标 的 学 习 过 程 ， 也 就 是 无 监督 
学 习 (unsupervised learning )， 这 种 过 程 更 像 是 一 种 探索 性 的 任务 。 无 监督 学 习 旨 在 通过 探索 数 
据 本 身 来 洞 彻 数据 中 的 现象 ， 而 不 是 用 模型 进行 分 类 。 


本 章 关注 通过 聚 类 新 闻 文 章 , 从 数据 中 发 现 趋 势 与 模式 。 本 章 还 会 介绍 如 何 从 链接 聚合 网 站 
上 提取 其 他 网 站 中 五 花 八 门 的 新 闻 报道 数据 。 


本 章 的 关键 概念 包括 : 


口 用 redditAPI 采 集 新 闻 报 道 ; 

口 从 任意 网 站 获取 文本 数据 ; 

口 无 监督 数据 挖掘 中 的 聚 类 分 析 ; 

口 从 文档 中 抽取 话题 ; 

口 用 在 线 学 习 更 新 模型 以 避免 重新 训练 模型 ; 
口 组 合 不 同 模型 的 聚 类 集成 算法 。 









































10.1 发 现 热门 话题 
在 本 章 中 , 我 们 会 构建 一 个 获取 在 线 推送 新 闻 文 章 并 且 按 相 似 话题 为 它们 分 组 的 系统 。 你 可 
以 在 几 周 〈 或 更 长 的 时 间 ) 里 多 次 运行 这 个 系统 ， 看 看 期 间 新 闻 趋势 的 变化 。 


该 系统 从 广 受 欢迎 的 链接 聚合 网 站 reddit 起 步 ， 这 种 网 站 存储 着 通 向 其 他 网 站 的 链接 的 列 
表 ， 并 配 有 评论 板块 以 供 讨论 。reddit 上 的 链接 被 分 割 成 几 个 被 称 为 subreddit 的 分 类 。subreddit 的 
主题 可 能 是 关于 某 部 电视 剧 、 搞 笑 图 片 或 者 其 他 东西 。 这 里 我 们 关注 的 是 新 闻 话 题 的 subreddit。 
虽然 本 章 将 使 用 /worldnewssubreddit， 但 代码 其 实 也 可 以 在 其 他 基于 文本 的 subreddit 中 奏效 。 


本 章 的 目的 是 下 载 热 门 报 道 ， 然 后 进行 聚 类 ， 以 从 中 发 现 所 涉及 的 主要 主题 或 概念 。 这 让 我 
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们 无 须 手 动 分 析 成 二 上 万 的 新 闻 报 道 , 就 能 洞察 大 众 关 注 的 焦点 。 大 体 过 程 可 以 概括 为 如 下 步骤 : 


(1) 从 reddit 采 集 最 新 的 热门 新 闻 报 道 链接 ; 
(2) 根据 这 些 链 接 下 载 Web 页 面 ; 

(3) 从 下 载 的 页 面 中 提取 新 闻 报 道 ; 

(4) 执行 聚 类 分 析 ， 发 现 新 闻 报 道 的 聚 类 ; 
(5) 分 析 已 经 发 现 的 聚 类 ， 探 索 新 闻 趋 势 。 














10.1.1 用 Web API 获 取 数 据 


在 前 面 的 儿 章 中 ， 我 们 已 经 试 过 用 基于 Web 的 API 获取 数据 。 比 如 在 第 7 章 中 ， 我 们 就 用 
Twitter 的 API 获取 了 数据 。 数 据 采 集 是 数据 挖掘 工作 流程 中 至 关 重 要 的 一 步 。 基 于 Web 的 API 
能 妥善 有 效 地 采集 有 关 各 类 话题 的 数据 ， 是 一 种 绝 佳 的 数据 采集 途径 。 


在 使 用 基于 Web 的 API 采 集 数 据 时 ， 要 考虑 3 件 事 情 : 认证 方法 、 访 问 速率 限制 和 API 端 
点 ( endpoint )。 


认证 方法 让 数据 提供 方 获悉 数据 采集 者 的 信息 , 确保 数据 采集 者 能 遵循 访问 速率 限制 , 以 及 
数据 的 访问 路 径 能 被 追踪 。 对 于 大 多 数 网 站 数据 的 采集 而 言 ,注册 个 人 账号 通常 就 够 了 , 不 过 某 
些 网 站 会 要 求 你 注册 一 个 正式 的 开发 者 账号 才能 访问 数据 。 


访问 速率 限制 会 针对 数据 采集 过 程 , 在 免费 的 服务 中 尤其 如 此 。 在 使 用 API 时 需要 特别 留意 
这 些 规则 ， 因 为 每 个 网 站 的 限制 都 不 同 。Twitter 的 API 限制 每 15 分 钟 最 多 180 次 请 求 ( 取决 于 
具体 的 API 请 求 )， 而 reddit 的 限制 则 是 每 分 钟 最 多 30 次 请 求 ( 之 后 我 们 将 会 见 到 )。 即 便 在 同 
一 个 网 站 内 , 针对 不 同 API 调 用 的 限制 也 可 能 相差 悬殊 。 比 如 , 谷歌 地 图 对 每 个 资源 的 限制 都 较 
为 严格 ， 且 具体 资源 不 同 ， 其 API 限制 也 不 同 ， 即 对 其 每 个 小 时 内 的 调用 请 求 数量 限制 不 同 。 

































































API 提 供 商 为 此 准备 了 支持 更 多 调用 的 商业 套餐 。 欲 知 更 多 详情 请 联系 提供 商 。 


API 端点 是 提取 信息 的 具体 URL, 网 站 不 同 , URL 不 同 。 基 于 Web 的 API 大 多 遵循 RESTful 
( 表现 层 状 态 转 换 ，representational state transfer 的 缩写 ) 接口 。RESTful 接口 通常 与 HTTP 使 用 
相同 的 运作 谓词 ，GET、POST、DELETE 这 几 个 是 最 常见 的 。 例 如 ， 要 从 某 个 资源 取出 信息 ， 就 
要 访问 这 个 API 端 点 ( 只 是 一 个 例子 ); www.dataprovider.com/api/resource type/resource id/。 


向 这 个 URL 发 送 一 个 HTTP 的 GT 请求, 就 会 返回 给 定 类 型 和 ID 的 资源 信息 。 虽然 大 多 数 
API 遵循 这 种 结构 ， 不 过 其 实现 上 还 是 有 一 些 差 异 。 很 多 网 站 的 API 文档 很 完善 ， 能 帮助 你 详细 
了 解 你 能 访问 到 的 所 有 API。 


首先 , 设置 连接 到 服务 的 参数 。 为 此 , 你 需要 一 个 reddit 的 开发 者 密 钥 。 在 https://www.reddit. 


人 如 果 你 创建 的 应 用 或 运行 的 实验 需要 更 多 的 请 求 数 或 更 快 的 响应 速度 ， 大 多 数 
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com/login 处 登录 ， 然 后 访问 https://www.reddit.com/prefs/apps 页 面 ， 点 击 页 面 中 的 are you a 
developer? create an app…， 然 后 填写 表单 ， 设 置 type 为 script。 之 后 你 就 可 以 拿 到 客户 端 了 
和 密 钥 ， 并 将 其 添加 到 新 的 Jupyter Notebook 实例 中 。 


CLIENT_ ID = "<Enter your Client ID here>" 
CLIENT_SECRET = "<Enter your Client Secret here>" 








reddit 还 要 求 你 ( 在 使 用 其 API 时 ) 将 用 户 代 理 (user agent ) 设置 为 包含 用 户 名 在 内 的 唯 
值 。 创 建 一 个 独一无二 的 用 户 代 理 字符 串 ， 作 为 应 用 的 标识 。 我 用 本 书 的 名 字 、 第 10 章 和 版 本 
号 0.1 组 成 用 户 代 理 字 符 串 ， 不 过 它 也 可 以 是 其 他 任何 你 想 用 的 字符 串 。 注 意 ， 如 果 你 没有 按 这 
一 步骤 操作 ， 连 接 的 访问 速率 就 会 受到 很 大 限制 。 


USER_AGENT = "python:<your unique user agent> (by /u/<your reddit 
username>)" 























此 外 ,你 还 需要 以 用 户 名 和 密码 登录 reddit。 如 果 你 没有 账号 , 请 注册 一 个 ( 账号 是 免费 的 ， 
而 且 无 须 验 证 个 人 信息 )。 





因为 要 完成 下 一 步 还 需要 你 的 密码 , 所 以 在 向 他 人 共享 代码 之 前 , 一 定 要 删除 其 
中 的 密码 。 如 果 你 没有 把 密码 放 在 代码 里 ， 那 么 你 可 以 将 其 设置 为 None， 之 后 
你 会 收 到 输入 提示 。 

下 面 创 建 用 户 名 和 密码 这 两 个 变量 。 

from getpass import getpass 


USERNAME = "<your reddit username>" 
PASSWORD = getpass ("Enter your reddit password:") 








接 下 来 ,创建 一 个 用 这 些 信息 执行 登录 的 函数 。reddit 的 登录 API 会 返回 一 个 可 供 后 续 连 接 
使 用 的 令 牌 (token )， 我 们 将 把 它 作 为 函数 的 返回 值 。 下 面 的 代码 获取 登录 reddit 所 需 的 必要 信 
息 ， 设 置 用 户 代理 字符 串 ， 并 且 获 取 后 续 请 求 中 要 用 到 的 访问 令 牌 。 


import requests 
def login(username, password): 
if password is None: 
password = getpass.getpass ("Enter reddit password for user {}: 
" .format (username)) 
headers = {"User-Agent": USER_AGENT} 
# 根据 凭据 设置 一 个 auth 对 象 
client auth = requests.auth.HTTPBasicAuth (CLIENT_ID, CLIENT_SECRET) 
# 向 access_token 端点 发 起 POST 请 求 








post_data = {"grant_type": "password", "username": username, 
"password": password} 
response = requests.post ("https://ww.reddit.com/api/vil/access_token", 
auth=client_auth, data=post_data, 
headers=headers) 
return response.json!() 


172 第 10 章 聚 类 新 闻 文章 





这 之 后 我 们 就 可 以 调用 函数 获取 访问 令 牌 了 。 


token = login (USERNAME, PASSWORD ) 


虽然 访问 令 牌 只 是 个 字典 ， 但 其 中 不 仅 包含 了 后 续 请 求 中 需要 传递 的 access_token 字符 
串 ， 还 包含 了 令 牌 的 作用 域 (所 有 资源 ) 和 过 期 时 间 等 其 他 信息 。 示 例如 下 。 


3600, 'scope': '*', 





{'access_token': '<semi-random string>', 


'token type': 'bearer'} 








'expires_in': 


如 果 你 正在 创建 一 个 用 于 生产 环境 的 应 用 , 请 确保 及 时 检查 令 牌 过 期 时 间 , 并 在 
的 : 0 在 访问 令 牌 失效 后 尝试 调用 API 时 ， 你 也 能 知道 发 生 了 


10.1.2 ”把 reddit 作 为 数据 源 


reddit 是 一 个 链接 聚合 网 站 ， 尽 管 其 英文 版 本 主要 面向 美国 ， 但 其 数 百 万 用 户 遍 布 全 球 。 每 


个 用 户 都 能 在 reddit 上 发 表 有 趣 的 网 站 链接 ， 并 为 其 附 上 网 站 的 标题 。 
高 分 链接 将 被 置 项， 而 低 分 链接 则 不 会 被 显示 。 随 着 时 间 推 





喜好 为 链接 投 出 赞同 票 或 者 反对 票 











之 后 ， 其 他 用 户 就 能 根据 

















移 ， 旧 的 链接 会 逐渐 被 从 首页 上 移 除 。 用 户 会 从 获得 的 赞同 票 中 得 到 被 称 为 karma "的 积分 ， 作 为 








提供 优秀 新 闻 报 道 的 奖励 。 


reddit 还 支持 非 链接 的 内 容 ， 这 些 内 容 被 称 为 原创 帖 (selfpost )， 其 中 包含 发 布 者 输入 的 标 


题 和 文字 内 容 。 咨 询问 题 和 发 起 讨论 都 是 采用 这 


种 基于 评论 的 帖子 。 


reddit 中 的 帖子 会 被 划分 到 不 同 的 版 块 ， 











这 种 形式 。 

















本 章 只 考虑 基于 链接 的 帖子 ， 而 不 是 这 

















这 些 版 块 称 为 subreddit。subreddit 是 话题 相关 的 帖 


子 的 集合 。 当 用 户 提 交 链 接 给 reddit 时 ， 需 要 选择 相应 的 subreddit。subreddit 中 有 负责 维护 内 容 
的 管理 员 ， 他 们 会 为 subreddit 制定 内 容 准 入 规则 。 














默认 情况 下 ， 帖 子 会 按 热度 (Hot ) 排序 。 才 











热度 是 关于 一 个 帖子 发 帖 至 今 的 时 间 、 赞 同 票 数 


和 反对 票数 ， 以 及 所 反映 内 容 的 自由 程度 的 函数 。 帖 子 也 可 以 按 最 新 发 表 ( New ) 排序 ， 这 种 排 
ed oo sare 
按 最 受 欢 迎 (Top ) 排序 ， 这 种 方法 会 列 出 最 近 的 高 质量 新 闻 报 道 ( 按 “ 最 新 发 表 ” 排 序 实在 是 





有 太 多 低 质量 链接 了 )。 























用 之 前 创建 的 令 牌 可 以 获取 subreddit 下 的 链接 集合 ,为 此 ,需要 访问 /r/<subredditname> 


这 样 的 API 端点， 默认 情况 下 会 返回 按 热度 排序 的 新 闻 报 道 。 这 里 我 们 用 /zy/worldanews (世界 





新 闻 ) 这 个 subreddit。 





@ karma ( 业 ) 是 一 个 印度 宗教 中 的 普遍 观念 ， 





可 以 指 





因果 报应 。reddit 9 


| 





























] karma 作为 上 





] 户 对 社区 贡献 的 指标 。 
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subreddit = "worldnews" 
用 字符 串 格式 化 方法 ， 从 之 前 的 端点 创建 完整 的 URL。 
url = "https://oauth.reddit.com/r/{}".format (subreddit) 


然后 需要 设置 HTTP 请 求 头 。 这 有 两 个 原因 : 需要 使 用 之 前 获取 到 的 认证 令 牌 以 及 设置 用 户 
代理 字符 串 ， 以 避免 访问 速率 受到 过 多 限制 。 代 码 如 下 。 


headers = {"Authorization": "bearer {}".format (token['access_token']), 
"User-Agent": USER_ AGENT} 


像 之 前 一 样 ， 用 requests 库 发 起 调用 。 此 时 需要 确保 已 经 设置 好 了 请 求 头 。 
response = requests.get (url, headers=headers) 
在 响应 结果 上 调用 json () 会 得 到 一 个 Python 字典 。 字 上 典 里 面 是 reddit 返 回 的 信息 ， 其 中 包 


括 我 们 指定 的 subreddit 中 的 前 25 条 新 闻 报道 。 和 迭代 响 应 结果 中 的 新 闻 报 道 ， 读 出 标题 ， 而 报道 
内 容 存储 在 字典 的 sata 键 中 。 代 码 如 下 。 


























result = response.json() 
for story in result['data']['children']: 
print (story['data'] ['title']) 


10.1.3 ”获取 数据 


本 节 的 数据 集中 会 包含 /= 上 /worldnews 这 个 subreddit 中 按 热 度 排 序 的 帖子 。 在 上 一 节 中 我 
们 了 解 了 如 何 连接 到 reddit 以 及 如 何 下 载 链接 。 这 里 我 们 要 创建 一 个 函数 ， 把 从 给 定 subreddit 
中 的 帖子 中 提取 标题 、 链 接 、 票 数 等 信息 的 功能 整合 在 一 起 。 


我 们 会 迭代 该 subreddit, 一 次 性 取出 最 多 100 条 新 闻 报 道 。 我 们 还 可 以 利用 分 页 功能 获取 更 
多 查询 结果 。 虽 然 在 触及 reddit 的 限制 前 可 以 读 取 很 多 页 ， 但 我 们 仍 自 行 限制 其 为 5 页 。 


因为 本 广 的 代码 会 重复 调用 API， 所 以 要 注意 限制 调用 速率 。 为 此 ， 我 们 需要 用 sleep () 


from time import sleep 


该 函数 接受 subreddit 名 称 和 授权 令 牌 作为 参数 ， 还 可 以 指定 读 取 的 页 数 (我 们 设置 默认 页 
数 为 5 )。 
def get_links (subreddit, token, n pages=5): 
stories = [] 
after = None 
for page_number in range(n pages) : 
# 在 执行 调用 前 休眠 ， 避 免 超 出 API 访问 速率 限制 
sleep (2) 
# 像 1ogin() 函数 中 一 样 ， 设 置 HTTP 请 求 头 ， 发 起 调用 
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headers = {"Authorization": "bearer{}".format (token['access_ token']), 
"User-Agent": USER_ AGENT} 
url = "https://oauth.reddit.com/r/{}?limit=100". format (subreddit) 
if after: 
# 如 果 有 下 一 页 的 游标 ， 附 加 到 URL 中 


url += Ss {}".format (after) 
response = requests.get (url, headers=headers) 


result = response.json() 
# 为 下 次 循环 获取 新 游标 
after = result['data']['after'] 
# 把 新 闻 报 道中 的 各 项 加 入 stories 列表 
for story in result['data']['children']: 
stories.append((story['data']['title'], story['data']['url'], 
story['data']['score'])) 


return stories 


我 们 在 第 7 章 中 使 用 过 Twitter API 的 分 页 功能 。 我 们 在 返回 结果 中 可 以 得 到 一 
个 游标 ， 在 发 送 请 求 的 时 候 会 附 上 游标 。Twitter 之 后 会 根据 游标 返回 下 一 页 的 

(由 结果 。reddit 的 API 同样 实现 了 这 一 功能 ， 只 是 游标 的 参数 叫 作 after。 因 为 在 
获取 第 1 页 时 不 需要 提交 游标 ， 所 以 可 以 将 其 初始 化 为 None， 但 在 获取 第 1 页 
之 后 的 结果 时 ， 就 要 把 这 个 参数 设置 成 有 意义 的 值 。 


把 授权 令 牌 和 subreddit 名 称 传 给 这 个 函数 ， 然 后 调用 函数 即 可 。 
stories = get_links ("worldnews", token) 


返回 的 结果 中 包含 500 篇 新 闻 报道 的 标题 、 内 容 和 URL， 之 后 我 们 会 用 它们 从 所 涉及 的 网 
站 中 提取 实际 的 文本 内 容 。 下 面 给 出 我 运行 脚本 时 返回 的 标题 作为 参考 。 








Russia considers banning sale of cigarettes to anyone born after 2015 

Swiss Muslim girls must swim with boys 

Report: Russia spread fake news and disinformation in Sweden - Russia has coordinated a 
campaign over the past 2years to influence Sweden s decision making by using disinformation, 
propaganda and false documents, according to a report by researchers at The Swedish Institute 
of International Afjairs. 

100% of Dutch Trains Now Run on Wind Enerey. The Netherlands met its renewable 
energy goals a year ahead of time. 

Legal challenge against UK s sweeping surveillance laws quickly crowdfunded 

A 1,000-foot-thick ice block about the size of Delaware is snapping off of Antarctica 

The U.S. dropped an average of 72 bombs every day — the equivalent of three an hour 一 
in 2016, according to an analysis of American strikes around the world. U.S. Bombed Irag, 
Syria, Pakistan, Afehanistan, Libya, Yemen, Somalia in 2016 

The German government iis investigating a recent surge in fake news following claims that 


Russia is attempting to meddle in the country 3 parliamentary elections later this year. 
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Pesticides kill over 10 million bees in a matter of days in Brazil countryside 

The families of American victims of Islamic State terrorist attacks in Europe have sued 
Twitter, charging that the social media giant allowed the terror group to proliferate online 

Gas taxes drop elobally despite climate change; oil &amp; gas industry gets $500 billion 
in subsidies; last new US gas tax was in 1993 

Czech government tells citizens to arm themselves and shoot Muslim terrorists in case of 
‘Super Holocaust’ 

PLO threatens to revoke recognition of Tsrael if US embassy moves to Jerusalem 

Two-thirds of all new HIV cases in Europe ae being recorded in just one country — Russia: 
More than a million Russians now live with the virus and that number is expected to nearly 
double in the next decade 

Czech government tells its citizens how to fight terrorists: Shoot them yourselves | The interior 
ministry is pushing a constitutional change that would let citizens use guns against terrorists 

Morocco Prohibits Sale of Burqa 

Mass killer Breivik makes Nazi salute at rights appeal case 

Soros Groups Risk Purge After Trump ’s Win Emboldens Hungary 

Nigeria purges 50,000 ‘ghost workers ’'from State payroll in corruption sweep 

Alcohol advertising is ageressive and linked to youth drinking, research finds | Society 

UK Government quietly launched ‘assault on freedom’ while distracting people, say 
campaigners behind legal challenge — The Investigatory Powers Act became law at the end of 
last year, and gives spies the power to read through everyone'’s entire internet history 

Russia s Reserve Fund down 70 percent in 2016 

Russian diplomat found dead in Athens 

At least 21 people have been killed (most were civilians) and 45 wounded in twin 
bombings near the Afehan parliament in Kabul 

Pound’s Decline Deepens as Currency Reclaims Dubious Honor 


虽然 世界 新 闻 版 块 通常 不 怎么 积极 乐观 , 却 能 让 我 们 了 解 全 世界 正在 发 生 的 事情 。 而 且 从 这 
个 subreddit 的 占 子 中 » 我 们 可 以 一 宕 世界 趋势 。 10 














10.2 ”从 任意 网 站 提取 文本 


我 们 从 reddit 获取 的 链接 指向 许多 不 同 组 织 运 营 的 网 站 。 由 于 这 些 网 站 中 的 页 面 是 为 了 方便 
人 类 阅读 设计 的 , 因而 要 让 计算 机 程序 理解 页 面 中 的 内 容 就 要 花 些 工夫 了 。 现今 的 网 站 背后 运行 
着 许多 东西 ， 它 们 会 让 我 们 在 从 链接 获取 实际 内 容 / 报 道 时 遇 到 一 些 麻烦 。 各 种 各 样 的 技术 ,， 包 
括 JavaScript 库 的 调用 、 样 式 表 的 应 用 、 用 AJAX 加 载 广告 和 边栏 中 的 额外 内 容 等 ， 让 现今 的 网 
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站 页 面 成 为 了 复杂 的 文档 。 虽然 有 了 这 些 技术 , 才 有 了 现在 的 Web, 但 这 些 技术 的 应 用 也 增加 了 
自动 提取 有 效 信息 的 难度 。 


10.2.1 寻找 任意 网 站 中 的 新 闻 报 道内 容 


首先 ， 根 据 链接 下 载 完整 的 Web 页 面 ， 然 后 将 其 存储 在 数据 文件 夹 下 的 raw ( 原始 数据 ) 
子 文件 夹 下 。 之 后 ， 处 理 这 些 数据 ， 从 中 提取 有 效 信息 。 请 注意 缓存 结果 ， 这 样 就 不 需要 在 工作 
时 不 断 下 载 网 站 中 的 数据 了 。 首 先 ， 设 置 数据 文件 夹 路 径 。 


import os 
data_folder = os.path.join(os.path.expanduser("~")，"Data"，"websites"， "raw") 


导入 hashlipb， 用 MD5 散 列 算法 计算 URL 的 散 列 值 ， 作 为 新 闻 报 道 文章 的 文件 名 。 


散 列 ( hash ) 函数 能 把 输入 (本 例 中 是 包含 标题 的 字符 串 ) 转换 成 看 起 来 像 是 随 
机 的 字符 囊 。 虽然 散 列 函 数 在 接受 同样 的 输入 时 ， 总 会 返回 相同 的 结果 ,但 输入 

DD 只 要 发 生 细微 变化 ， 其 结果 就 会 天 差 地 别 。 而 且 ， 散 列 函 数 是 单 向 济 数 ， 从 散 列 
值 无 法 推出 原始 的 输入 值 。 


import hashlib 


本 章 的 实验 将 直接 跳 过 下 载 失败 的 网 站 。 为 了 不 会 因 这 种 操作 而 丢失 太 多 信息 , 我 们 维护 了 
一 个 简单 的 报错 计数 。 我 们 会 抑制 那些 会 阻止 下 载 的 系统 性 错误 。 如 果 报 错 计数 值 太 高 ,请 看 一 
下 发 生 了 什么 错误 并 尝试 修复 它们 。 例 如， 如 果 计 算 机 不 能 访问 互联 网 , 那么 所 有 的 500 个 下 载 
任务 都 会 失败 ， 而 你 应 该 在 继续 下 载 前 修复 这 一 问题 。 


number_errors = 0 


接 下 来 ,迭代 每 篇 新 闻 报 道 ， 下 载 网 站 页 面 ， 并 把 结果 保存 到 文件 中 。 


for title, url, score in stories: 






































output_filename = hashlib.md5 (url.encode()) .hexdigest() 
fullpath = os.path.join(data_folder, output_filename + ".txt") 
Crs 


response = requests.get (url) 

data = response.text 

with open(fullpath, 'w') as outf: 

outf.write(data) 

print ("Successfully completed {}".format (title)) 
except Exception as e: 

number_errors += 1 

# 如 果 报 错 太 多 ,请 用 下 面 的 语句 查看 错误 


# raise 
如 果 在 获取 网 站 上 的 内 容 时 发 生 错 误 , 那么 代码 会 跳 过 这 个 网 站 ,继续 执行 后 续 任 务 。 因 为 
我 们 关注 的 是 趋势 ， 而 不 是 精准 内 容 ， 而 这 份 代码 能 用 在 许多 网 站 上 ， 所 以 对 于 眼下 的 应 用 场景 
而 言 它 已 经 足够 好 了 。 
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值得 一 提 的 是 ， 如 果 确实 需要 100% 地 获取 到 查询 响应 ， 那 么 你 就 应 该 调整 代码 
OP 以 适应 更 多 的 报错 情况 ,不 过 知 易 行 难 , 要 写 出 能 可 靠 地 处 理 互联 网 数据 的 代码 ， 
需要 付出 相当 多 的 努力 。 获 取 最 后 5%~10% 网 站 所 用 的 代码 会 异常 复杂 。 
在 前 面 的 代码 中 ,我 们 只 是 捕获 所 发 生 的 错误 ， 并 在 记录 该 错误 后 继续 工作 。 


如 果 出 现 了 太 多 错误 ， 那么 你 可 以 取消 raise 前 的 注释 ， 使 代码 正常 抛 出 异常 ， 帮 助 你 调 
试问 题 。 

完成 这 一 步 之 后 ， 在 raw 子 文件 夹 下 就 有 了 许多 网 站 的 页 面 。 看 一 下 这 些 页 面 的 内 容 (用 
文本 编辑 器 打开 之 前 创建 的 页 面 文件 )， 你 会 发 现 其 中 虽然 确实 有 分 析 所 需 的 内 容 ， 但 也 有 很 多 
HTML、JavaScript、CSS 代码 和 一 些 其 他 内 容 。 因 为 我 们 只 关注 新 闻 报道 本 身 ， 所 以 就 需要 一 种 
方法 ， 从 这 些 不 同 的 网 站 页 面 中 提取 出 这 类 信息 。 


10.2.2 ”提取 内 容 


在 获取 原始 数据 之 后 ， 我 们 要 从 中 找 出 新 闻 报 道 的 内 容 。 不 仅 复杂 的 算法 能 达成 这 一 目的 ， 
有 一 些 简单 的 算法 也 可 以 达成 这 一 目的 。 这 里 我 们 还 是 坚持 使 用 简单 的 方法 ,而 且 请 记 住 , 简单 
的 算法 通常 就 已 经 足够 好 了 。 搞 清楚 什么 时 候 用 简单 的 算法 完成 任务 , 什么 时 候 用 复杂 的 算法 取 
得 性 能 优势 ， 也 是 数据 控 气 工作 的 一 部 分 。 

首先 ， 获 得 一 份 raw 子 文件 夹 下 的 文件 列表 。 


filenames = [os.path.join(data_ folder, filename) for filename in 
os.listdir(data_folder)] 


然后 ,创建 一 个 输出 文件 夹 ， 以 保存 提取 出 的 纯 文本 内 容 。 


text_output_folder = os.path.join(os.path.expanduser ("~"), "Data", 
"websites", "textonly") 


之 后 ， 编 写 代 码 ， 以 完成 从 页 面 文件 提取 文本 的 任务 。 我 们 将 用 1xml 库 解析 HTML 文件 。 
这 个 库 能 处 理 很 多 格式 异常 的 表达 式 ， 是 一 个 优秀 的 HTML 解析 器 。 代 码 如 下 。 

from lxml import etree 

实际 提取 文本 的 代码 可 以 分 为 以 下 3 个 步 又。 

(1) 迭代 HTML 文件 中 的 各 个 节点 ， 从 中 提取 文本 。 

(2) 跳 过 JavaScript、 样 式 和 注释 等 节点 ， 因 为 这 种 节点 中 的 信息 不 是 我 们 要 关注 的 。 

(3) 确保 内 容 不 少 于 100 字符 。 这 是 一 条 能 提升 结果 准确 率 的 好 基线 。 

如 前 文 所 述 ， 我 们 不 关注 页 面 中 的 脚本 、 样 式 和 注释 。 因 此 ,我 们 要 创建 一 个 要 忽略 的 节点 
类 型 列表 。 可 以 认为 ,符合 列表 中 的 类 型 的 节点 都 不 包含 新 闻 报道 内 容 。 代 码 如 下 。 


skip_node types = ["script", "head", "style", etree.Comment] 
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现在 我 们 要 创建 一 个 函数 ， 把 HTML 文件 解析 成 1xml 中 的 etree。 然 后 再 创建 另 一 个 函 
数 处 理 该 元 素 树 ， 以 查找 其 中 的 文本 内 容 。 前 者 的 实现 直截了当 ， 只 需 打 开 文 件 ， 然 后 用 1xml 
库 解 析 HTML， 创建 元 素 树 即 可 。 代 码 如 下 。 


parser = etree.HTMLParser() 




















def get_ text_from file(filename): 
with open(filename) as inf: 
html_tree = etree.parse (inf, parser) 
return get_text_from node(html_tree.getroot()) 


函数 中 的 最 后 一 行 调用 getroot () 函数 获取 元 素 树 的 根 世 点 ， 而 不 是 整个 etree。 这 让 我 
们 可 以 写 出 参数 是 任意 节点 的 函数 ， 1 个 递归 函数 。 


这 个 函数 会 以 子 节 点 为 参数 调用 自己 , 并 从 中 提取 文本 , 然后 把 子 节点 中 的 文本 拼接 在 一 起 
作为 返回 值 。 


如 果 传 给 函数 的 节点 没有 子 节 点 , 函数 就 会 返回 该 节点 中 的 文本 内 容 。 如果 节点 
中 没有 文本 内 容 ， 函 数 就 会 返回 一 个 空 字 符 串 。 注 意 还 要 检查 第 三 个 条 件 一 一 文 
本 长 度 不 少 于 100 字符 。 


检查 文本 长 度 不 少 于 100 字符 的 代码 如 下 。 


def get_text_from nodqe (nodqe) : 
if len(node) == 0: 
# 没有 子 节点 ， 只 返回 文本 
if node.text: 
return node.text 























else: 
et 
else: 
# 如 果 包 含 子 节点 ， 则 返回 子 节点 中 的 文本 
results = (get_text_from node(child) 


for child in node 
if child.tag not in skip_node types) 
result = str.join("n", (r for r in results if len(r) > 1)) 
if len(result) >= 100: 
return result 
else: 
ol 


这 时 候 ， A 单 归 地 调用 这 个 函数 ,然后 把 所 有 
结果 合并 到 一 起 返 
最 后 一 处 判断 , 也 就 是 返回 语句 涉及 的 判断 会 控制 是 否 返回 空 行 ( 例如 节点 没有 子 节点 也 没 
有 文本 内 容 的 时 候 )。 我 们 还 用 生成 器 特性 保证 代码 整洁 有 效 ， 只 抓 取 必 要 节点 的 文本 内 容 ， 即 
最 后 直接 返回 的 内 容 ， 而 不 是 创建 出 很 多 套 着 列表 的 列表 。 


现在 就 可 以 在 原始 HTML 页 面 上 运行 这 些 代 码 了 。 迭 代 这 些 页 面 ， 为 每 个 页 面 调用 文本 提 
函数 ， 并 把 结果 保存 到 text- only 子 文件 夹 中 。 
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for filename in os.listdir(data_ folder): 
text = get_text_from filel(os.path.join(data_ folder, filename)) 
with open(os.path.join(text_output_folder, filename), 'w') as outf: 
outf.write(text) 





你 可 以 打开 text-only 子 文件 夹 下 的 各 个 文件 中 的 内 容 ， 手 动 评估 一 下 提取 结果 。 如 果 你 
发 现 结果 中 有 很 多 不 是 新 闻 报道 的 内 容 , 可 以 尝试 提高 100 字符 的 最 低 限 制 。 如果 还 是 没 能 有 效 
改善 结果 ， 或 仍 对 改善 后 的 结果 不 满意 ， 请 尝试 附录 中 列 出 的 方法 。 


10.3 ”为 新 闻 文 章 分 组 


本 章 的 目的 是 用 聚 类 、 分 组 的 方法 发 现 新 闻 文章 中 的 趋势 。 为 此 ， 我 们 要 用 到 一 种 1957 年 
就 开发 出 来 的 经 典 机 器 学 习 算法 : 均值 (k-means ) 算法 。 


聚 类 ( clustering ) 是 一 种 无 监督 学 习 技 术 。 通 常 我 们 使 用 聚 类 算法 是 为 了 探索 数据 。 当 前 数 
据 集中 包含 将 约 500 份 新 闻 报 道 , 因此 难以 逐个 研究 每 一 份 新 闻 报 道 。 聚 类 能 把 相似 的 新 闻 报 道 
归 为 一 组 ， 这 样 我 们 就 可 以 探索 各 个 聚 类 艇 中 的 话题 了 。 


在 我 们 没有 明确 的 目标 类 时 ,可 以 在 数据 中 应 用 聚 类 技术 。 从 这 种 意义 上 讲 ， 聚 
人 类 算法 的 学 习 过 程 几乎 没有 方向 性 。 聚 类 算法 的 学 习 只 取决 于 某 些 函数 ， 而 会 无 
视 数 据 中 蕴含 的 意义 。 


因此 ， 特 征 选择 的 好 坏 就 是 决定 成 败 的 关键 。 在 监督 学 习 中 ， 如 果 你 选取 的 特征 不 好 ,学 习 算 
法 可 以 选择 不 使 用 这 些 特 征 。 比 如 支持 向 量 机 会 为 那些 没有 为 分 类 起 作用 的 特征 分 配 很 低 的 权重 。 
但 是 聚 类 会 用 所 有 特征 来 产生 最 终结 果 ， 即 使 其 中 的 特征 不 能 为 我 们 提供 想 要 的 结果 时 也 是 如 此 。 


在 用 现实 地 界 中 的 数据 执行 聚 类 分 析 时 , 最 好 先 对 哪些 类 型 的 特征 适用 于 当前 应 用 场景 有 一 
个 清晰 的 概念 。 本 章 会 使 用 词 袋 模型 。 因 为 要 按 话题 分 组 ， 所 以 要 用 基于 话题 的 特征 来 建立 文档 
的 模型 。 我 们 清楚 这 些 特征 是 有 效 的 ， 因 为 之 前 已 经 用 这 些 特 征 完 成 了 监督 学 习 的 任务 。 与 之 相 
反 ， 如 果 要 执行 基于 作者 的 聚 类 分 析 ， 就 要 采用 第 9 章 中 发 现 的 那些 特征 。 










































































10.4 -均值 算法 
大 均值 聚 类 算法 能 通过 迭代 过 程 找 出 能 表示 数据 的 最 佳 形 心 (centroid )。 算 法 从 预定 义 的 形 
心 集合 开始 ， 这 些 形 心 通常 是 训练 数据 中 的 数据 点 。K- 均 值 中 的 是 算法 要 寻找 的 形 心 数 量 ,也 
是 算法 找 出 的 聚 类 艇 数量 。 例 如 在 为 3 时 ， 会 在 数据 集中 找 出 3 个 聚 类 艇 。 
开 均 值 算法 的 计算 分 为 两 个 阶段 :分配 (assignment ) 和 更 新 (updating )。 对 它们 的 解释 如 下 。 
口 在 分 配 步 又 中 ， 我 们 为 数据 集中 的 每 个 样本 设置 一 个 标签 ， 把 样本 连接 到 最 近 的 形 心 。 
给 距离 形 心 1 最 近 的 样本 分 配 标 签 1， 给 距离 形 心 2 最 近 的 样本 分 配 标签 2， 而 形 心 磊 的 
情形 则 以 此 类 推 。 根 据 这 些 标签 形成 聚 类 得 ， 即 标签 1 下 的 数据 点 都 位 于 上 聚 类 簇 1 中 ( 仅 

































































180 第 10 章 聚 类 新 闻 文章 





限于 当前 ， 随 着 算法 的 运行 ， 标 签 的 分 配 也 会 发 生变 化 )。 

口 在 更 新 步骤 中 ， 我 们 迭代 各 个 聚 类 得 并 计算 形 心 。 形 心 是 聚 类 复 中 所 有 样本 的 均值 。 
算法 会 不 断 迭 代 执 行 分 配 步 又 和 更 新 步骤 。 每 次 计算 更 新 步骤 时 ， 形 心 都 会 有 一 小 段位 移 ， 

这 也 会 导致 标签 的 分 配 发 生 细微 变化 , 进而 导致 下 次 迭代 时 形 心 还 会 有 一 小 段位 移 。 如 此 循环 往 











复 ， 直 到 触发 某 些 停止 准则 后 ， 该 过 程 终止 。 
我 们 通常 可 以 在 迭代 达到 一 定 次 数 时 , 或 者 形 心 位 移 足 够 小 时 终止 算法 运行 。 但 
在 某 些 场景 下 算法 也 会 自动 完成 ,此 时 聚 类 答 是 稳定 的 ,标签 分 配 不 会 继续 变化 ， 


形 心 也 不 会 再 发 生 位 移 。 
的 数据 集中 运行 均值 算法 的 结果 ， 其 中 产生 了 3 个 聚 类 和 


图 10-1 展示 了 在 一 个 随机 创 役 
星 形 标记 表示 形 心 的 起 始 位 置 ,而 这 些 形 心 是 从 数据 集中 随机 挑选 的 样本 。 在 大 均值 算法 的 5 次 











迭代 后 ， 这 些 形 心 移动 到 图 中 三 角形 标记 的 位 置 。 


























图 10-1 
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大 均值 算法 因 其 数学 性 质 和 非凡 的 历史 意义 而 著名 。( 大 体 上 讲 ) 这 个 算法 只 需要 一 个 参数 。 
即使 在 50 年 后 的 今天 ， 它 仍 是 相当 高 效 的 算法 ， 并 且 依 然 被 广泛 使 用 。 
scikit-learn 中 实现 了 撕 均 值 算法 ， 可 以 从 cluster 模块 导入 它 。 


from sklearn.cluster import KMeans 


我 们 还 要 导入 CountVectorizer 类 的 近亲 : TfidfVectorizer。 这 个 向 量化 转换 右 根 据 
词语 在 文档 中 出 现 的 次 数 ， 用 tf/1og (af) 公式 为 词语 计数 加 权 。 其 中 tf 是 词 频 (词语 在 当前 
文档 中 出 现 的 次 数 )，af 是 词语 的 文档 频率 ( 词语 在 语料库 里 的 多 少 篇 文档 中 出 现 )。 出 现在 很 
多 文档 中 的 词语 权重 较 低 ( 除 以 词语 出 现 的 文档 数量 的 对 数 )。 这 种 类 型 的 权重 计算 形式 能 可 靠 
高 效 地 提升 许多 文本 挖掘 应 用 的 性 能 。 代 码 如 下 。 


from sklearn.feature extraction.text import TfidfVectorizer 


之 后 , 我 们 要 为 分 析 过 程 设置 流水 线 。 这 个 流水 线 由 两 个 步 又 组 成 。 第 一 个 步骤 是 应 用 向 量 
化 转换 器 ， 第 二 个 步骤 是 应 用 均值 算法 。 代 码 如 下 。 


from sklearn.pipeline import Pipeline 






































n_clusters = 10 
pipeline = Pipeline([('feature extraction', TfidfVectorizer (max_df=0.4)), 
('Cclusterer', KMeans(n_clusters=n_clusters))]) 


max_9f 参数 被 设置 为 0.4 这 样 低 的 值 ， 意 在 忽略 出 现在 40% 以 上 文档 中 的 词语 ， 从 而 把 那 
些 与 话题 无 关 的 功能 词 移 除 干 净 。 





去 掉 出 现在 40% 以 上 文档 中 的 词语 就 可 以 创 除 功能 词 ,这 使 得 第 9 章 中 创 除 功能 
0H 词 的 预 处 理 过 程 显得 非常 无 用 。 


documents = [open(os.path.join(text_output_folder, filename)).read!() 
for filename in os.listdir(text_output_folder)] 


接 下 来 ， 训练 流水 线 并 执行 预测 。 迄今 为 止 , 我 们 已 经 在 本 书 的 分 类 任务 中 如 此 操作 过 很 多 
次 了 , 不 过 这 次 有 一 点 不 同一 一 我 们 没有 给 fit () 函数 提供 数据 集 的 目标 类 。 这 就 是 无 监督 学 习 
任务 的 特点 。 代 码 如 下 。 


pipeline.fit (documents) 

















labels = pipeline.predict (documents) 


现在 labels 变量 中 就 有 各 个 样本 的 聚 类 篮 编 号 了 。 标 签 相 同 的 样本 位 于 相同 的 聚 类 艇 中 。 
这 里 要 注意 一 点 ， 珍 类 簇 标签 本 和 刁 是 无 意义 的 : 聚 类 得 1 与 聚 类 复 2 并 不 比 聚 类 簇 1 与 从 类 簇 3 
之 间 更 相似 。 


用 Counter 类 可 以 计算 出 每 个 聚 类 簇 中 的 样本 数 。 
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from collections import Counter 

C = Counter (labels) 

for cluster number in range(n_ clusters): 

print ("Cluster {} contains {} samples".format (cluster_number, 
clcluster_number])) 

Cluster contains 1 samples 

Cluster contains 2 samples 

Cluster contains 439 samples 

Cluster contains 1 samples 

Cluster contains 2 samples 

Cluster contains 27 samples 

Cluster contains 2 samples 


Cluster 


0 
1 
2 
3 
4 
Cluster 5 contains 3 samples 
6 
7 
8 contains 12 samples 
9 


Cluster contains 1 samples 


许多 聚 类 分 析 的 结果 ( 要 注意 , 你 的 数据 集 跟 我 用 的 可 能 很 不 一 样 ) 包含 一 个 容 
0 纳 了 多 数 样 林 的 大 聚 类 徐 、 几 个 中 等 大 小 的 聚 类 艇 , 还 有 一 些 只 有 寥寥 几 个 样本 
的 小 聚 类 禾 中 。 在 聚 类 应 用 中 ， 结 果 不 平均 的 状况 是 相当 普遍 的 。 


10.4.1 评估 结果 

聚 类 分 析 以 探索 性 质 为 主 , 因此 到 类 算法 结果 的 评估 就 成 为 了 一 个 难题 。 我 们 可 以 直接 用 算 
法 学 习 的 标准 本 身 来 评估 算法 性 能 。 

在 左 均值 算法 中 , 这 个 标准 就 是 形 心 的 计算 方式 : 最 小 化 样本 到 最 近 形 心 的 距离 。 这 叫 作 算 
法 的 惯性 ( inertia )， 调 用 KMeans 实例 的 fit () 方 法 即 可 获取 惯性 。 


Dipeline.nameq_steps['clusterer'].inertia 


在 我 的 数据 集中 得 出 的 结果 是 343.94。 不 幸 的 是 ,这 个 数值 本 身 毫 无 意义 。 不 过 我 们 可 以 参 
照 这 个 数值 确定 聚 类 复 的 数量 。 在 前 面 的 例子 中 我 们 把 n_clusters 设置 为 10， 这 是 最 佳 的 取 
值 吗 ? 下 面 的 代码 会 为 n_clusters 在 2~20 取 值 ， 并 对 不 同 取 值 分 别 运行 10 次 均值 算法 。 
因为 计算 的 东西 有 些 多 ， 所 以 要 花费 一 些 时 间 。 


每 次 运行 均值 算法 后 ， 都 记录 一 下 结果 的 惯性 权重 。 


你 也 许 已 经 注意 到 了 , 下面 的 代码 没有 使 用 流水 线 ， 而 是 由 我 们 自己 分 成 了 几 个 步 又。 我 们 
为 每 个 不 同 的 n_clusters 取 值 只 创建 一 次 文本 文档 的 于 矩 阵 ， 这 样 可 以 大 幅 提升 代码 的 运行 
速度 。 

inertia_scores = [] 

n_cluster_ _ values = list(range(2, 20)) 


for n clusters in n cluster values: 
cur_inertia_scores = [] 
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xX = TfidfVectorizer (max_dqf=0.4) .fit_transform(dqocuments ) 
for i in range(10): 
km = KMeans (n_clusters=n clusters).fit (x) 
cur_inertia scores.append (km.inertia ) 
inertia_ scores.append(cur_inertia_ scores) 


代码 运行 完成 后 , inertia_scores 变量 中 就 包含 了 n_clusters 在 2~20 中 取 不 同 值 时 的 
惯性 权重 。 我 们 可 以 作 图 展现 n_cluster_values 与 惯性 权重 的 关系 ， 如 图 10-2 所 示 。 





smatplotlib inline 

from matplotlib import pyplot as plt 

inertia means = np.mean(inertia_ scores, axis=1) 

inertia _ stderr = np.std(inertia_ scores, axis=1) 

fig = plt.figure (figsize=(40,20)) 

plt.errorbar(n_cluster_ values, inertia means, inertia stderr, color='green') 
plt.show!() 





























图 。10-2 


如 图 10-2 所 示 , 从 整体 上 可 以 大 致 看 出 , 惯性 权重 的 增长 幅度 随 着 聚 类 艇 的 数量 增长 而 下 降 。 
在 聚 类 复数 量 为 6~7 时 , 惯性 权重 的 增长 只 是 由 于 形 心 选择 过 程 的 随机 性 , 这 种 随机 性 也 会 影响 
最 终结 果 的 好 坏 。 即 便 如 此 , 还 是 可 以 看 出 惯性 权重 最 后 一 次 显著 增长 出 现在 聚 类 复数 量 6 附近 
的 普遍 趋势 〈 我 的 数据 是 这 样 ， 你 自己 产生 的 结果 可 能 会 不 一 样 )。 

尽管 像 这 样 模糊 的 标准 很 难 明确 , 但 之 后 惯性 权重 的 增长 幅度 就 很 小 了 。 因 为 在 图 表 中 寻找 
的 是 肘 形 的 弯曲 部 分 ， 所 以 找 出 这 种 模式 的 方法 被 称 为 肘 部 法 则 (elbow rule )。 虽 然 在 某 些 数据 
集中 会 有 很 多 明显 的 肘 形 ， 但 在 某 些 图 中 这 种 特性 甚至 不 会 出 现 ( 有些 图 表 会 更 平滑 )。 
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根据 以 上 分 析 ， 我 们 把 n_clusters 设置 为 6， 然 后 重新 运行 算法 。 


n_clusters = 6 

pipeline = Pipeline([('feature extraction', TfidfVectorizer(max_ df=0.4)), 
('clusterer', KMeans(n_clusters=n_ clusters))]) 

pipeline.fit (documents) 

labels = pipeline.predict (documents) 





10.4.2 ”从 聚 类 簇 中 提取 话题 信息 
现在 我 们 把 目光 投向 聚 类 徐 ， 尝试 从 各 个 聚 类 簇 中 发 现 话题 。 
首先 ， 从 特征 提取 步骤 中 提取 词语 列表 。 


terms = pipeline.named steps['feature extraction'] .get_feature names() 


然后 ， 用 妃 一 个 计数 需 计 算 各 个 类 别 的 大 小 。 


Cc = Countetr (labels) 


像 前 面 一 样 ， 和 迭代 各 个 聚 类 复 ， 打 印 出 聚 类 复 的 大 小 。 











在 评估 算法 结果 时 ,要 留意 聚 类 徐 的 大 小 。 茶 些 聚 类 比 可 能 只 有 一 个 样本 ,因此 
这 样 的 聚 类 禾 不 能 作为 总 体 趋 势 的 指示 。 


接 下 来 ,，( 仍然 在 循环 内 部 ) 适 代 聚 类 得 中 最 重要 的 词语 。 为 此 ， 我 们 要 从 形 心 附近 找 出 得 
分 最 高 的 5 个 样本 值 ， 将 其 视 为 最 重要 的 词语 。 
for cluster number in range(n clusters): 
print ("Cluster {} contains {} samples".format (cluster_number, 
clcluster_number])) 
print(" Most important terms") 
centroid = pipeline.named steps['clusterer'] .cluster_ centers_[cluster number] 
most_important = centroid.argsort() 
for i in range(5): 
term index = most_important[- (i+1)] 
print ("{0}) {1} (score: {2:.4f})".format (i+1l, terms[term index], 
centroid[term index])) 


其 结果 可 以 相当 有 效 地 指示 当前 趋势 。 我 (在 2017 年 1 月 ) 取得 的 结果 是 : 聚 类 簇 对 应 健 


康 问题 、 中 东 紧 张 局 势 、 朝 鲜 半岛 紧张 局 势 和 俄罗斯 事态 。 这 就 是 当时 热门 新 闻 的 主要 话题 一 一 
不 过 多 年 来 几乎 没 发 生 什么 变化 ! 


你 会 注意 到 有 些 词 虽然 没有 提供 什么 有 价值 的 信息 ,但 排名 靠 前 ， 比 如 you、her， 还 有 mr。 
在 第 9 章 中 我 们 就 已 经 见 过 这 些 功 能 词 , 它们 虽然 对 作者 分 析 非 常 有 用 , 但 对 分 析 话 题 通常 没有 
太 大 意义 。 把 功能 词 列 表 作 为 流水 线 中 TfigdfVvectorizer 的 stop_words 参数 ， 就 可 以 忽略 
这 些 词 。 下面 的 代码 已 经 据 此 更 新 好 了 流水 线 。 
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function words = [... list from Chapter 9 ...] 
pipeline = Pipeline([('feature extraction', TfidfVectorizer (max_ df=0.4, 
stop_words=function words)), 
('Clusterer', KMeans(n_clusters=n_clusters))]) 


10.4.3 ”把 聚 类 算法 作为 转换 器 


顺便 一 提 ， 左 均值 算法 (以 及 其 他 任何 聚 类 算法 ) 有 一 个 有 趣 的 性 质 ， 即 它 可 以 用 来 做 特征 
归 约 〈feature reduction )。 特 征 归 约 的 方法 有 很 多 ， 比 如 主 成 分 分 析 、 潜 在 语义 索引 (LSI，latent 
semantic indexing )。 这 类 算法 多 有 一 个 通病 ， 即 对 计算 性 能 要 求 非常 高 。 


在 前 例 中 ,词语 列表 中 有 14 000 项 ， 这 形成 了 一 个 相当 大 的 数据 集 。 我 们 用 万 均值 算法 把 
这 些 数据 转换 成 了 仅仅 6 个 聚 类 簇 。 这样 我 们 把 样本 到 形 心 的 距离 作为 特征 , 就 可 以 创建 一 个 特 
征 比 之 前 少 得 多 的 数据 集 。 


因为 流水 线 的 最 后 一 步 是 KMeans 类 实例 , 所 以 此 时 流水 线 已 经 训练 好 了 。 因 此 我 们 可 以 调 
用 KMeans 类 实例 的 transform() 方法 。 


xX = pipeline.transform(documents) 


这 会 调用 流水 线 最 后 一 步 上 的 transform() 方 法 ， 而 最 后 一 步 就 是 均值 算法 实例 。 返 回 
的 结果 是 一 个 有 6 个 特征 的 矩阵 ， 而 样本 数量 与 文档 长 度 一 致 。 


之 后 , 你 可 以 在 新 生成 的 数据 集 上 再 次 执行 聚 类 分 析 ， 如 果 有 目标 类 别 值 , 你 也 可 以 在 分 类 
任务 中 使 用 它 。 其 工作 流程 可 能 是 这 样 : 先 利用 有 监督 的 数据 进行 特征 选择 ,用 聚 类 分 析 把 特征 
归 约 至 可 控 的 数量 ， 再 把 结果 中 的 数据 集 用 于 支持 向 量 机 这 样 的 分 类 算法 。 


10.5“ 聚 类 集成 


在 第 3 章 中 我 们 就 已 经 掌握 了 用 随机 森林 算法 完成 分 类 集成 的 方法 ， 即 把 许多 低 质量 的 、 基 
于 树 的 分 类 器 集成 到 一 起 。 集 成 学 习 方法 同样 可 以 用 于 聚 类 算法 , 这 人 么 做 的 一 个 关键 原因 就 是 通 
过 多 次 运行 算法 可 以 平滑 算法 运行 结果 。 正 如 我 们 之 前 见 到 的 ,均值 算法 的 结果 取决 于 形 心 起 
始 位 置 ， 因 此 该 结果 十 分 多 变 。 多 次 运行 算法 ， 并 组 合 利用 多 次 结果 就 可 以 削弱 这 种 变化 。 















































































































































集成 学 习 同 样 也 可 以 降低 参数 选择 对 最 终结 果 的 影响 ,大 多 数 聚 类 算法 对 算法 的 
参数 值 相当 敏感 。 只 要 参数 出 现 细微 变化 ， 形 成 的 聚 类 比 就 截然 不 同 。 


10.5.1 证 据 积累 方法 


我 们 可 以 先 从 基本 的 集成 学 习 方法 开始 , 多 次 聚 类 数据 并 记录 每 次 运行 产生 的 标签 , 还 要 在 
一 个 新 和 矩阵 中 记录 每 对 样本 在 聚 类 后 分 配 到 同一 个 聚 类 艇 的 次 数 。 这 就 是 证 据 积累 聚 类 〈《EAC， 


evidence accumulation clustering ) 算法 的 精髓 。 
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证 据 积累 聚 类 算法 分 为 两 步 。 





(1) 用 大 均值 算法 这 样 的 低级 聚 类 算法 多 次 聚 类 数据 ， 然 后 在 每 次 和 迭 代 时 记录 样本 出 现在 同 





一 聚 类 复 中 的 频率 ， 并 将 其 存储 在 一 个 共 协 矩 阵 ( co-association matrix ) 中 。 


(2) 在 上 一 步 产 生 的 共 协 矩阵 中 ， 用 被 称 为 层次 聚 类 ( hierarchical clustering ) 的 另 一 种 聚 类 
算法 执行 聚 类 分 析 。 这 个 算法 在 数学 上 等 同 于 找 出 连接 所 有 节点 的 树 并 且 移 除 弱 连 接 , 这 个 性 质 





在 图 论 意义 下 非常 有 趣 。 








我 们 可 以 通过 迭代 标签 , 从 标签 数组 中 创建 一 个 共 协 矩阵 , 并 记录 两 个 样本 标签 相同 的 情况 。 











这 里 我 们 用 到 了 SciPy 中 的 csr_matrix， 它 是 一 种 稀 玻 和 矩阵。 


from scipy.sparse import csr_matrix 











我 们 的 函数 定义 接受 标签 数组 为 参数 , 并 在 列表 中 记录 每 次 匹配 的 行 编号 与 列 编号 。 稀 玻 和 矩 
阵 通常 只 是 记录 非 零 值 位 置 的 列表 组 ， 而 且 csr_matrix 就 是 这 种 稀 玻 矩阵 。 我 们 在 列表 中 记 















































录 了 每 对 标签 相同 的 样本 的 位 置 。 


import numpy as np 
def create_ coassociation matrix(labels): 
rows = [] 
Cols: :a= |] 
unidue_labels = set (labels) 
for label in unique_ labels: 
indices = np.where(labels == label) [0] 
for indexl in indices: 





for index2 in indices: 
rows.append (index1) 
cols.append (index2) 
data = np.ones((len(rows),)) 
return csr_matrix((data, (rows, cols)), dtype='float') 





如 | 


调用 这 个 函数 ， 就 可 以 从 标签 列表 中 生成 一 个 共 协 矩阵 。 


C = create coassociation matrix(labels) 


自 此 我 们 就 可 以 把 多 个 这 样 的 矩阵 联合 在 一 起 , 这 也 让 我 们 能 把 下 均值 算法 的 多 次 运行 结 
组 合 起 来 使 用 。 在 输出 c ( 直接 在 Jupyter Notebook 中 的 新 输入 框 中 输入 C 然后 运行 ) 中 可 以 看 








到 和 矩阵 中 有 多 少 个 非 零 值 。 因 为 我 运行 聚 类 算法 产生 的 聚 类 复 较 大 , 所 以 在 我 得 到 的 结 
将 近 一 半 的 矩阵 元 素 是 有 值 的 〈 聚 类 得 越 均 匀 ， 非 零 值 越 少 )。 





中 , 有 


下 一 步 就 要 涉及 共 协 矩阵 中 的 层级 聚 类 算法 了 。 在 算法 实现 中 , 我 们 会 从 这 个 矩阵 中 找 出 最 


小 生成 树 ， 然 后 根据 给 定 的 阔 值 移 除权 重 较 低 的 边 。 





在 图 论 中 , 生成 树 ( spanningtree ) 是 图 中 能 连接 到 所 有 节点 的 边 的 集合 。 最 小 生成 树 ( MST， 
minimum spanning tree ) 就 是 总 权重 最 低 的 生成 树 。 在 我 们 的 应 用 场景 中 ， 图 中 的 节点 是 数据 集 
中 的 样本 ， 边 上 的 权重 就 是 两 个 样本 聚 类 在 相同 聚 类 得 中 的 次 数 一 一 也 就 是 共 协 矩 阵 中 的 值 。 
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图 10-3 就 是 一 个 6 节点 图 中 的 最 小 生成 树 。 图 中 的 节点 在 最 小 生成 树 中 可 以 被 连接 不 止 一 
次 ， 只 要 满足 图 中 所 有 的 节点 都 连接 在 一 起 即 可 。 

















图 10-3 





导入 SciPy 中 的 sparse 包 ， 用 其 中 的 minimum_spanning_tree() 函数 计算 最 小 生成 树 。 


from scipy.sparse.csgraph import minimum spanning_ tree 


之 前 共 协 冰 数 生成 的 稀疏 和 矩阵 可 以 直接 用 于 mst () 函数 。 


mst = minimum spanning tree(C) 


不 过 ， 在 我 们 的 共 协 矩阵 C 中 ， 较 高 的 值 代表 样本 更 多 地 被 聚 类 在 相同 的 聚 类 簇 中 ， 即 代表 
相似 度 的 值 。 与 此 相对 , minimum_spanning_tree() 函数 会 把 输入 矩阵 中 的 值 视 为 距离 ， 值 越 
高 ， 边 受 的 处 罚 越 大 。 为 此 ， 我 们 要 先 给 共 协 矩阵 取 相 反 数 再 进行 最 小 生成 树 的 计算 。 


mst = minimum spanning tree(-C) 


上 面 这 个 函数 返回 的 矩阵 虽然 与 共 协 矩阵 的 大 小 一 样 ( 行列 数 都 是 数据 集中 的 样本 数量 )， 
但 它 只 保留 了 最 小 生成 树 中 的 边 ， 而 移 除 了 其 他 边 。 


之 后 , 定义 一 个 阐 值 , 并 移 除权 重 低 于 阔 值 的 边 。 为 此 , 我 们 会 迭代 最 小 生成 树 矩 阵 中 的 边 ， 
移 除 权重 低 于 特定 值 的 边 。 仅 迭代 一 次 并 不 能 处 理 好 共 协 矩阵 中 的 边 ( 矩阵 中 的 值 只 有 0 和 1， 
不 能 提供 足够 的 信息 )。 因 此 ， 我 们 要 先 创 建 额外 的 标签 和 共 协 和 矩阵， 然后 把 两 个 矩阵 相 加 。 代 
码 如 下 。 

pipeline.fit (documents) 

labels2 = pipeline.predict (documents) 


C2 = create coassociation matrix(labels2) 
C_ Sum SE (C4 2) 


之 后 ， 计 算 最 小 生成 树 ， 并 移 除 没有 同时 出 现在 两 份 标签 列表 中 的 边 。 


mst = minimum spanning_ tree(-C_sum) 
mst.data[lmst.data > -1] = 0 
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这 里 取 阔 值 为 1 是 为 了 刨 除 没有 在 两 个 聚 类 簇 中 都 出 现 过 的 边 。 不 过 ,因为 我 们 对 共 协 矩阵 
取 了 相反 数 ， 所 以 也 对 阔 值 取 了 相反 数 。 


最 后 ， 在 移 除 低 权 重 的 边 后 ， 找 出 所 有 仍 连 接 在 一 起 的 样本 ， 也 就 是 找 出 所 有 连通 分 量 。 
返回 的 第 一 个 值 是 连通 分 量 的 数量 ( 也 是 聚 类 艇 的 数量 )， 而 第 二 个 值 是 每 个 样本 的 标签 。 代 码 
如 下 。 


from scipy.sparse.csgraph import connected_ components 
number_of_clusters, labels = connected_ components (mst) 


我 用 自己 的 数据 集 找 出 了 8 个 聚 类 簇 ,， 跟 之 前 取得 的 聚 类 复数 量 基本 一 致 。 该 结果 仍 在 意料 
之 中 ， 毕 竟 我 们 只 和 欠 代 了 两 次 大 均值 算法 。 和 迭代 更 多 次 大 均值 算法 〈 下 一 节 就 会 这 样 做 )， 结 果 
就 会 大 有 变化 。 






































10.5.2 ”工作 原理 

在 均值 算法 中 ,使 用 特征 时 没有 将 其 按 权 重 区 分 开 来 。 这 一 做 法 的 本 质 是 假定 所 有 特征 
的 数值 规模 相同 。 我 们 在 第 2 章 中 就 见 过 由 于 忽视 特征 数值 规模 差异 而 导致 的 问题 。 其 结果 是 
均值 算法 找 出 的 聚 类 簇 是 圆 形 的 ， 如 图 10-4 所 示 。 









































图 10-4 


大 均值 算法 也 能 找 出 椭圆 形 的 聚 类 复 。 虽 然 样本 间 的 分 离 程度 通常 不 会 这 公平; 
题 可 以 通过 缩放 特征 值 来 解决 。 这 种 形状 的 聚 类 簇 见 图 10-5。 
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， 不 过 该 问 
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图 10-5 

从 前 面 的 截图 中 可 以 看 出 ， 并 非 所 有 聚 类 得 都 是 这 种 形状 。 图 10-4 中 的 聚 类 簇 是 圆 形 ， 
大 均值 算法 很 容易 找 出 这 种 形状 的 聚 类 簇 。 图 10-5 中 的 聚 类 复 是 椭圆 形 ， 在 缩放 特征 值 后 ， 
态 均 值 算法 也 能 得 出 该 形状 的 聚 类 复 。 

10-6 的 第 三 种 聚 类 艇 甚至 不 是 凸 状 的 。 虽然 该 聚 类 艇 形状 奇特 ,大 均 值 算法 难以 发 现 , 但 
它 仍 被 认为 是 一 个 聚 类 徐 ， 因 为 大 多 数 人 能 用 肉眼 从 图 片 中 将 它 识 别 出 来 。 
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聚 类 分 析 是 一 项 艰巨 的 任务 , 这 主要 是 因为 定义 问题 十 分 困难 。 大 多 数 人 虽然 能 直观 地 理解 
问题 的 意义 , 但 很 难 用 ( 机 器 学 习 所 必须 的 ) 精确 的 术语 来 对 其 进行 定义 。 人 们 往往 不 能 就 使 用 
哪 一 个 术语 达成 一 致 。 


证 据 积累 聚 类 算法 的 思路 是 把 特征 重新 映射 到 新 的 特征 空间 ， 其 实质 是 利用 上 一 节 中 用 
太 均 值 算法 归 约 特征 的 原理 ,把 万 均值 算法 的 每 次 运行 都 作为 一 个 转换 器 。 不 过 此 时 我 们 只 采用 
实际 的 标签 ， 也 就 是 共 协 矩阵 中 记录 的 数据 ， 而 不 用 样本 到 形 心 的 距离 。 


这 样 一 来 , 证 据 积 累 聚 类 算法 就 只 关心 样本 之 间 的 相似 程度 ,而 不 是 它们 在 原始 特征 空间 中 
的 位 置 。 不 过 , 未 缩放 的 特征 还 是 会 带 来 一 些 问题 。 因 此 无 论 如 何 都 要 执行 特征 缩放 ， 这 很 重要 
《本章 在 革 idf 算 法 中 就 完成 了 这 一 工作 ， 该 算法 处 理 过 的 特征 已 经 是 相同 规模 的 数值 )。 

第 9 章 在 讲 文 持 向 量 机 中 的 核 函数 时 ， 已 经 展示 了 类 似 的 转换 过 程 。 这 种 转换 的 功能 强大 ， 
非常 值得 在 复杂 的 数据 集中 使 用 。 不 过 ,要 把 数据 重新 映射 到 新 的 特征 空间 中 ,并 不 需要 如 此 复 
杂 ， 使 用 证 据 积累 聚 类 算法 就 较为 简便 。 


































































































10.5.3 ”算法 实现 


现在 ， 我 们 可 以 创建 一 个 符合 scikit-learn 接口 要 求 的 聚 类 算法 实现 ， 把 证 据 积累 聚 类 
算法 中 需要 执行 的 各 步 又 组 合 在 一 起 。 首 先 ,利用 scikit-learn 中 的 clusterMixin 创建 算 
法 实现 类 的 基本 结构 。 


这 个 类 需要 的 参数 有 : 第 一 步 中 要 执行 的 大 均值 聚 类 算法 的 次 数 ( 用 于 创建 共 协 矩阵 )、 用 
来 移 除 边 的 阔 值 、 每 次 万 均值 聚 类 算法 要 找 出 的 聚 类 艇 数量 。 我 们 把 n_clusters 设置 成 一 个 
范围 ， 以 扩大 结果 的 方差 。 在 集成 学 习 中 ,方差 通常 都 是 好 东西 。 如 果 没 有 方差 ,那么 集成 学 习 
方案 不 会 比 单独 运行 聚 类 好 多 少 〈 即 便 如 此 ， 高 方差 也 不 能 作为 集成 学 习 效果 好 的 证 明 )。 


下 面 的 代码 展示 了 完整 的 类 实现 ， 之 后 本 节 会 具体 介绍 类 中 的 每 个 函数 。 


from sklearn.base import BaseEstimator, ClusterMixin 
Class EAC (BaseEstimator, ClusterMixin): 
def __init__(self, n clusterings=10, cut_threshold=0.5, 
n_clusters_range=(3, 10)): 
self.n clusterings = n_clusterings 
self.cut_threshold = cut_threshold 
self.n clusters_range = n clusters_range 





















































def fit(self, XxX, y=None): 
C = sum((create coassociation matrix(self._single clustering (XxX) 
for i in range(self.n clusterings))) 
mst = minimum spanning_ tree(-C) 
mst.data[lmst.data > -self.cut_threshold] = 0 
mst.eliminate_ zeros() 
self.n_ components, self.labels_ = connected components (mst) 
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return self 


def _single clustering(self, Xx): 
n_clusters = np.random.randint (*self.n_clusters_range) 
km = KMeans (n_clusters=n_clusters) 
return km.fit_ predict (x) 


def fit_ predict (self, XxX): 
self.fit (x) 
return self.labels_ 


fit () 函数 的 目标 是 运行 一 定 次 数 的 大 均值 聚 类 算法 ， 合 并 各 次 运行 中 生成 的 共 协 和 矩阵， 之 
后 再 找 出 最 小 生成 树 分 制 共 协和 矩阵 ， 其 思路 与 前 面 的 证 据 积累 聚 类 示例 是 一 样 的 。 我 们 可 以 用 低 
级 的 大 均值 算法 执行 聚 类 分 析 , 并 把 每 次 欠 代 产生 的 共 协 矩阵 加 在 一 起 。 这 里 我 们 用 生成 器 来 完 
成 这 步 操作 ,并 且 为 了 节省 内 存 ， 只 在 需要 时 才 创 建 共 协 矩阵 。 生 成 右 在 每 次 迭代 中 ， 都 会 在 我 
们 的 数据 集中 单独 运行 一 次 均值 , 并 创建 相应 的 共 协 和 矩阵。 我 们 用 sum() 函数 把 共 协 矩 阵 相 加 
到 一 起 。 


像 之 前 一 样 ， 我 们 会 创建 最 小 生成 树 ， 根 据 给 定 的 阔 值 (前面 解 释 过 为 什么 要 取 相 反 数 ) 移 
除 低 权 重 的 边 ， 然 后 找 出 连通 分 量 。 和 scikit-learn 中 的 所 有 fit () 函数 一 样 ， 该 函数 也 要 
返回 self， 以 保证 这 个 类 也 能 在 流水 线 中 正常 使 用 。 

孙 数 _single_clustering () 在 每 次 迭代 里 对 数据 集 执行 单 次 碟 均 值 算法 ， 然 后 返回 预测 
出 的 标签 ,为 此 ,我 们 用 NumPy 的 randint () 函数 配合 指定 聚 类 复数 量 区 间 的 n_clusters_range 
参数 随机 选取 聚 类 簇 的 数量 , 再 用 左 均 值 算法 聚 类 分 析 数 据 集 , 产生 预测 值 。 这 里 的 返回 值 就 是 
大 均值 算法 生成 的 标签 。 


最 后 是 fit_predict () 函数 ， 它 只 是 调用 fit () 函数 并 返回 文档 的 标签 。 


现在 我 们 就 可 以 像 前 面 一 样 设置 好 流水 线 ， 运行 上 述 代 码 。 注意, 要 把 流水 线 的 最 后 一 步 设 
置 为 EAC 类 的 实例 ， 以 替换 之 前 的 KMeans 类 实例 。 代 码 如 下 。 


pipeline = Pipeline([('feature extraction', TfidfVectorizer (max_df=0.4)), 
('clusterer', EAC())]) 
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在 某 些 场景 下 ,学 习 开 始 前 我 们 并 不 具备 全 部 的 训练 数据 。 我 们 之 所 以 有 时 需要 新 数据 ， 既 
可 能 是 因为 现 有 数据 太 大 , 难以 读 取 到 内 存 中 , 也 可 能 是 因为 我 们 需要 从 预测 中 读 取 额外 的 新 数 
据 。 为 适应 这 种 情形 ， 能 随 着 时 间 训练 模型 的 在 线 学 习 方法 应 运 而 生 。 


在 线 学 习 (online learning ) 是 指 用 新 数据 增 量 更 新 模型 。 支 持 在 线 学 习 的 算法 能 用 一 个 或 少 
量 样本 完成 一 次 性 的 训练 ,之 后 用 新 样本 更 新 模型 。 相 反 , 非 在 线 的 算法 在 训练 时 就 需要 访问 到 
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全 部 的 数据 。 到 目前 为 止 ， 本 书 中 大 多 数 算法 如 后 者 ， 标 准 的 大 均值 算法 亦 不 例外 。 


在 线 版 本 的 算法 能 用 少量 样本 部 分 更 新 模型 。 神 经 网 络 就 是 这 类 在 线 算 法 的 一 个 标准 示例 。 
每 当 向 神经 网 络 输入 新 样本 , 神经 网 络 中 的 权重 值 就 会 根据 学 习 速 率 进 行 更 新 , 不 过 通常 权重 只 
会 发 生 如 0.01 这 样 小 的 数值 变化 。 即 数据 中 的 一 个 新 样本 只 会 对 模型 产生 微小 的 影响 ( 但 这 种 
影响 很 可 能 是 正面 的 )。 

神经 网 络 也 可 以 通过 一 次 性 投入 一 组 样本 的 方式 批量 训练 , 这 样 训练 过 程 可 以 一 步 完成 。 批 
量 训练 算法 虽然 通常 速度 更 快 ， 但 也 需要 更 大 的 内 存 。 

我 们 也 可 以 使 用 同样 的 方法 在 读 入 单个 样本 或 小 批 样本 时 小 幅度 更 新 均值 算法 中 的 形 心 。 
为 此 , 我 们 要 在 万 均值 算法 的 更 新 步骤， 把 学 习 速 率 引 和 到 形 心 的 位 移 中 。 假 定 样本 是 从 总 体 中 
随机 抽取 的 ， 那 么 形 心 应 向 其 在 标准 、 离 线 的 大 均值 算法 中 的 位 置 移动 。 

在 线 学 习 与 流 式 学 习 有 关 , 不 过 两 者 有 一 些 区 别 。 在 线 学 习 能 回顾 模型 中 使 用 过 的 样本 ， 而 
流 式 机 器 学 习 算法 只 能 读 取 每 个 样本 一 次 。 
















































































算法 实现 

scikit-learn 包 中 实现 了 MiniBatchKMeans 算法 , 它 可 以 支持 在 线 学 习 。 这 个 类 中 实现 了 
partial_fit() 国 数 ， 该 函数 可 以 以 一 组 样本 为 参数 更 新 模型 。 与 它 正 好 相反 ，fit () 会 移 除 
之 前 的 训练 成 果 ， 只 用 新 数据 重新 训练 模型 。 

因为 MiniBatchKMeans 与 scikit-learn 中 其 他 算法 一 样 ， 遵 循 相同 的 聚 类 参数 与 接口 ， 
所 以 其 实例 的 创建 方法 和 使 用 方法 也 与 scikit-learn 中 其 他 算法 一 样 。 

算法 从 流 式 读 取 过 的 所 有 样本 点 中 取 均 值 。 计 算 这 个 均值 ， 只 需要 关注 两 个 值 : 数据 点 的 总 
数 和 已 经 读 取 的 数据 点 数量 。 之后, 在 遇 到 新 一 组 样本 时 ， 就 可 以 用 这 些 信息 完成 更 新 步骤 中 新 
均值 的 计算 。 

因此 ， 我 们 要 用 Tfigdfvectorizer 从 数据 集中 提取 特征 ， 创 建 一 个 站 矩阵， 然后 从 数据 
集中 采样 ， 并 用 增 量 更 新 模型 。 代 码 如 下 。 


vec = TfidfVectorizer (max_df=0.4) 
xX = vec.fit_transform(documents) 


之 后 ， 导 入 MiniBatchKMeans 类 ,创建 该 类 的 实例 。 



































from sklearn.cluster import MiniBatchKMeans 
mbkm = MiniBatchKMeans (random_ state=14, n_clusters=3) 


接 下 来 , 从 关 和 矩阵 中 随机 取样 ,模拟 从 外 部 数据 源 传 人 的 数据 ,并 在 每 次 读 取 到 新 数据 时 更 
新 模型 。 
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batch size = 10 

for iteration in range(int (xX.shape[0] / batch size)): 
start = batch size * iteration 
end = batch_ size * (iteration + 1) 
mbkm.partial_ fit (xXx[start:end]) 


随后 ， 我 们 就 可 以 让 MiniBatchKMeans 类 的 实例 从 原始 数据 集 预测 标签 了 。 


labels = mbkm.predict (Xx) 


在 这 一 阶段 , 由 于 TfidfVvectorizer 个 是 在 线 册 法 , 因而 我 们 不 能 把 它 投 入 到 流水 线 中 使 
用 。Hashingvectorizet 可 以 解决 这 一 问题 , 这 个 类 巧妙 地 使 用 散 列 算法 大 幅 减 少 了 计算 词 袋 
模型 时 的 内 存 占 用 。 我 们 只 记录 特征 名 的 散 列 值 ， 而 不 是 文档 中 找 出 的 词语 这 样 的 特征 名 称 。 
为 它 会 生成 所 有 可 能 散 列 值 的 集合 , 所 以 我 们 在 查看 数据 集 之 前 就 能 掌握 特征 的 情况 。 这 个 集合 
会 非常 大 ， 其 中 的 散 列 值 数 量 通 常 在 2 级 。 即 使 是 这 种 大 小 的 矩阵 ， 也 可 以 用 稀 玻 矩阵 的 方法 
来 轻松 解决 ， 因 为 这 种 矩阵 中 零 值 占 了 很 大 比例 。 


目前 Pipeline 类 不 能 用 于 在 线 学 习 。 不 同 的 应 用 场景 存在 细微 差异 , 这 就 意味 着 不 存在 普 
裔 适 用 的 办 法 。 相反 ， J 人 Pipeline 的 子 类 , 然后 用 它 执行 在 线 学 习 。 首先 继承 
Pipeline 类 ， 因 为 我 们 只 需要 实现 其 中 的 一 个 函数 。 


class PartialFitPipeline (Pipeline): 
def partial_ fit(self, Xx, y=None): 
区 可 1 二 区 
for name, transform in self.steps[:-1]: 
Xt = transform.transform(Xt) 
return self.steps[-1][1] .partial_ fit (xt, y=y) 
这 里 要 实现 的 唯一 函数 就 是 partial_fit ()， 它 会 首先 执行 所 有 转换 步骤 ， 然 后 在 最 后 一 
步 ( 可 能 是 分 类 器 或 者 聚 类 算法 ) 轴 用 部 分 加 练 因为 其 他 函数 与 普通 的 Pipeline 类 一 样 ， 所 
以 我 们 直接 (通过 类 继承 ) 引用 即 可 。 


现在 我 们 就 可 以 用 MiniBatchKMeans 类 创建 一 条 流水 线 ， 配 合 HashingVvectorizer 实 
现在 线 学 习 了 。 虽然 这 个 流程 在 本 章 其 他 部 分 也 被 使 用 过 , 但 这 次 我 们 一 次 只 输入 少量 文档 用 于 
训练 。 代 码 如 下 。 


from sklearn.feature extraction.text import HashingVectorizer 













































































pipeline = PartialFitPipeline([('feature extraction', HashingVectorizer()), 
('clusterer', 
MiniBatchKMeans (random_ state=14, n_clusters=3)) ]) 
batch size = 10 
for iteration in range(int (len(documents) / batch size)): 
start = batch_ size * iteration end = batch size * (iteration + 1) 
pipeline.partial_ fit(documents[start:end]) 
labels = pipeline.predict (documents) 
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这 种 方法 有 一 些 不 利 的 地 方 。 例 如 ,用 它 找 出 各 个 聚 类 簇 中 最 重要 的 词语 就 不 是 很 方便 。 要 
解决 这 一 问题 ， 可 以 先 把 词语 的 散 列 值 输入 到 男 一 个 CountVectorizer 实例 中 过 滤 ， 之 后 再 查 
找 散 列 值 ， 而 不 是 词语 本 身 。 但 是 这 样 做 不 但 有 点 麻烦 ， 而 且 会 把 HashingVectorizer 节省 
的 内 存 挥霍 一 空 。 不 仅 如 此 ,这 样 一 来 我 们 还 不 能 治 用 之 前 使 用 过 的 max_af 参数 ， 因 为 这 个 参 
数 需要 知道 特征 是 什么 并 随 着 时 间 推 移 对 特征 进行 计数 。 























另外 ， 在 执行 在 线 学 习 时 也 不 能 使 用 td_idf 权 重 。 尽管 近似 地 计算 并 应 用 这 种 权 
6 得 是 可 行 的 ， 不 进 其 方法 还 是 很 烦 融 。 尽 管 如 此 ， 由 于 HashingVectorizer 
应 用 散 列 算法 的 方式 很 巧妙 ， 因 而 它 仍 是 一 种 非常 实用 的 算法 。 


10.7 本章 小 结 


本 章 关注 一 种 无 监督 学 习 算 法 一 一 聚 类 算法 。 无 监督 学 习 的 目的 是 探索 数据 ,而 非 分 类 或 预 
测 。 在 本 章 的 实验 中 ， 因 为 我 们 事先 不 知道 从 reddit 上 取得 的 新 闻 条 目 所 包含 的 话题 ， 所 以 对 其 
执行 分 类 任务 也 就 无 从 谈 起 。 我 们 用 大 均值 聚 类 算法 把 新 闻 报 道 育 集 到 一 起 , 以 找 出 共同 的 话题 ， 
发 现 数据 内 在 的 趋势 。 


在 从 reddit 获取 数据 时 ， 要 求 我 们 能 从 任意 网 站 提取 数据 。 我 们 通过 查找 大 段 文本 ， 而 不 是 
借助 于 成 熟 的 机 器 学 习 方法 来 实现 这 一 需求 。 不 过 也 有 一 些 有 趣 的 机 器 学 习 方法 可 以 用 于 这 个 任 
务 , 并 改善 文本 提取 的 效果 。 在 本 书 的 附录 中 ,我 按 章 列 出 了 拓展 各 章 学 习 的 方向 和 改善 实验 结 
果 的 方法 ， 其 中 包括 来 自 其 他 渠道 的 参考 资料 和 各 章 方 法 的 更 复杂 的 应 用 。 


我 们 还 研究 了 一 种 直接 的 集成 学 习 算法 , 即 证 据 积累 聚 类 算法 。 集 成 学 习 通 常 能 有 效 利 用 结 
果 中 的 方差 , 在 你 不 知道 如 何 选取 合适 的 参数 时 ( 聚 类 中 的 参数 选择 总 是 很 困难 ) 这 种 方法 尤其 
有 帮助 。 


最 后 , 本 章 还 介绍 了 在 线 学 习 , 它 是 迈 向 包括 大 数据 处 理 在 内 的 更 大 规模 机 顺 学 习 实 践 的 大 
门 。 本 书 的 最 后 两 章 将 会 阐述 与 大 数据 相关 的 问题 。 最 后 两 章 中 的 实验 涉及 的 数据 规模 相当 庞大 ， 
我 们 不 仅 要 探讨 训练 模型 的 方法 ， 还 要 研究 管理 如 此 大 规模 数据 的 方法 。 

你 可 以 尝试 把 积累 聚 类 算法 实现 成 支持 在 线 学 习 的 版 本 , 以 此 作为 对 本 章 内 容 的 扩展 。 这 个 
任务 并 不 简单 ， 你 需要 考虑 在 更 新 算法 后 会 发 生 什么 。 你 还 可 以 从 更 多 数据 源 ( 其 他 的 subreddit 
或 直接 从 新 闻 网 站 、 博 客 ) 采集 更 多 数据 ， 并 从 中 发 现 一 般 性 的 趋势 。 

下 一 童 将 离开 无 监督 学 习 的 领域 , 重新 深入 分 类 问题 。 该 章 将 着 眼 于 深度 学 习 , 这 是 一 种 基 
于 复杂 神经 网 络 的 分 类 方法 。 
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我 们 在 第 8 章 的 学 习 中 掌握 了 基础 神经 网 络 的 用 法 。 通 过 研究 神经 网 络 ， 人 们 创造 出 了 最 为 
先进 、 准 确 的 分 类 算法 ,它们 在 许多 领域 中 得 到 了 广泛 应 用 。 本 章 要 介绍 的 概念 与 第 8 章 中 的 概 
念 的 区 别 在 于 复杂 度 。 本 章 不 仅 关 注 具 有 很 多 隐藏 层 的 深度 神经 网 络 ( deep neural network ), 还 
关注 为 了 处 理 像 图 像 这 样 特定 类 型 的 信息 而 应 用 的 复杂 层 的 更 多 类 型 。 


随 着 算 力 提升 而 来 的 技术 进步 让 我 们 可 以 训练 更 大 、 更 复杂 的 神经 网 络 。 但 是 ,这 些 进步 并 
非 是 通过 简单 地 在 问题 中 投入 更 多 算 力 取得 的 。 除 了 计算 能 力 之 外 , 新 的 算法 和 新 类 型 的 层 也 大 
幅 提 升 了 神经 网 络 的 性 能 。 但 是 ,这 也 带 来 了 代价 : 这 些 新 分 类 器 完成 训练 需要 的 数据 要 比 其 他 
数据 挖掘 分 类 器 多 。 
本 章 着 眼 判 断 图 像 中 出 现 的 对 象 。 向 神经 网 络 输入 图 片 的 像素 值 , 之 后 神经 网 络 会 自动 找 出 
有 用 的 像素 组 合 ， 以 形成 更 高 级 别 的 特征 ， 再 把 这 些 这 特征 用 于 实际 的 分 类 过 程 。 
总 之 ,本章 的 研究 内 容 如 下 : 
口 为 图 像 中 的 对 象 分 类 ; 
口 不 同类 型 的 深度 神经 网 络 ; 
口 用 TensorFlow 和 Keras 库 构 建 并 训练 神经 网 络 ; 
口 用 GPU 提升 算法 运行 速度 ; 
口 用 云 服务 为 数据 挖掘 增添 助力 。 


11.1 对象 分 类 

计算 机 视觉 (computer vision ) 将 会 成 为 未 来 科技 的 重要 组 成 部 分 。 可 以 预见 ， 在 不 久 的 将 
来 我 们 就 会 见 到 自动 驾驶 汽车 。 汽 车 厂商 计划 在 2017 年 发 布 自动 驾驶 的 车 型 ， 而 且 现 在 就 已 经 
有 部 分 支持 自动 驾 强 的 车 型 了 。" 要 让 车 载 计算 机 自动 驾 强 ， 就 要 让 它 能 够 观察 周围 的 环境 并 识 
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别 障 碍 物 、 其 他 车 辆 和 天 气 状 况 ， 进 而 
虽然 用 雷达 就 能 很 容易 判断 障碍 物 


据 此 规划 安全 的 行程 。 
是 否 存在 ， 但 获悉 该 障碍 物 具 体 是 什么 也 很 重要 。 比 如 ， 


如 果 前 方 道路 上 有 一 只 动物 ,那么 我 们 可 以 停车 ,等 它 自 行 离开 ; 如 果 前 面 有 一 尽 建 筑 物 ， 这样 


做 就 不 对 了 。 


使 用 案例 
计算 机 视觉 在 许多 场景 中 有 应 用 。 
D 在 线 地 图 网 站 ， 比 如 谷歌 地 图 ， 





下 面 举例 说 明 计 算 机 视觉 的 重要 应 用 场景 。 
使 用 计算 机 视觉 技术 的 原因 有 很 多 。 其 中 一 个 原因 就 是 该 


技术 可 以 自动 找 出 人 类 面孔 并 对 其 进行 模糊 处 理 ， 以 保护 进入 街景 拍摄 范围 的 路 人 隐私 。 
口 很 多 行业 还 会 应 用 人 脸 检 测 技术 。 现 今 相 机 能 自动 检测 人 脸 ， 以 此 改善 拍摄 照片 的 质量 








( 用 户 往 往 想 要 在 面部 对 焦 )。 人 脸 检测 还 能 用 于 身份 识别 。 例 如 Facebook 可 以 识别 照片 
中 的 人 ， 让 用 户 更 容易 标记 出 照片 中 的 好 友 。 

口 如 前 文 所 述 ， 自 动 驾 驶 汽车 在 识别 道路 和 避 开 障碍 物 方面 高 度 依赖 于 计算 机 视觉 技术 。 
计算 机 视觉 是 正在 被 解决 的 关键 问题 之 一 。 该 技术 的 应 用 范围 并 非 仅 限 于 民用 自动 驾驶 
汽车 ， 采 矿业 等 其 他 产业 也 会 使 用 这 种 技术 。 








口 航天 工业 运用 计算 机 视觉 技术 加 








口 其 他 行业 也 采用 了 计算 机 视觉 技术 ， 比 如 自动 检测 仓库 中 的 缺陷 货物 。 


助 数据 的 自动 化 采集 。 因 为 从 地 球 向 火星 上 的 探测 车 发 





送信 号 时 ， 信 号 抵达 需要 很 长 时 间 ， 而 且 在 某 些 情况 下 《〈 例如 两 颗 行星 没有 “面对面 ” 
时 ) 信号 是 无 法 抵达 的 ， 所 以 该 技术 对 能 否 有 效 利用 航天 带 就 至 关 重 要 。 随 着 我 们 开始 
更 频繁 、 更 远 距 离 地 发 射 航天 器 ， 增 加 航天 顺 的 自主 性 势 在 必 行 ， 计 算 机 视觉 就 是 其 中 


的 关键 部 分 之 一 。 图 11-1 是 美 





国 国家 航空 航天 局 (NASA ) 设计 的 火星 探测 车 ， 它 充分 





应 用 了 计算 机 视觉 技术 ， 能 在 陌生 且 环 境 恶 劣 的 星球 上 识别 周遭 环境 。 
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11.2 ”应 用 场景 

本 音 要 构建 这 样 一 套 系统 , 它 以 图 像 为 输入 , 给 出 关于 图 像 中 对 象 是 什么 的 预测 。 我们 要 扮 
演 车 载 视觉 系统 的 角色 。 该 系统 会 环顾 四 周 ， 发现 道路 上 或 道路 两 旁 的 障碍 物 。 输入 图 像 的 形式 
如 图 11-2 所 示 。 
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图 11-2 


本 章 的 数据 集 取 自 备 受 欢 迎 的 CIFAR-10 数据 集 ,包含 了 宽 为 32 像素 .高 为 32 像素 的 60 000 
张 图 像 ， 其 中 每 个 像素 都 有 一 个 红 - 绿 - 蓝 (RGB ) 值 。 虽 然 该 数据 集 已 经 被 分 割 为 训练 数据 集 和 
测试 数据 集 两 个 部 分 ， 但 我 们 在 训练 完成 之 前 不 会 用 到 测试 数据 集 。 


你 可 以 访问 http:/www.cs.toronto.edu/~kriz/cifar.html 下 载 CIFAR-10 数据 集 。 请 下 EU 
载 Python 版 本 的 数据 集 ， 它 已 经 被 转换 成 了 NumPy 数组 的 形式 。 





打开 一 份 新 的 Jupyter Notebook， 看 看 数据 是 什么 样子 的 。 首 先 ， 设 置 好 数据 的 文件 名 。 我 
们 起 初 只 关心 数据 的 第 1 批 次 ， 然 后 会 扩大 所 用 数据 规模 ， 直 到 最 后 采用 完整 的 数据 集 。 
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import os 
data_folder = os.path.join(os.path.expanduser ("~"), "Data", "cifar-10-batches-py") 
patch1_ filename = os.path.join(data folder, "data batch_ 1") 


下 一 步 , 创建 一 个 函数 读 取 各 批 次 的 数据 。 各 批 次 的 数据 是 以 pickle 格式 保存 的 。 pickle 
是 一 个 用 于 保存 对 象 的 Python 库 ， 通 常 我 们 可 以 直接 调用 pickle.1loadq(file)， 从 文件 中 取 


出 对 象 。 不 过 这 些 数据 中 有 一 个 小 问题 : 尽管 对 象 是 在 Python 2 中 保存 的 ， 我 们 却 想 在 Python3 
中 打开 它 。 我 们 通过 把 编码 设置 成 1atin (尽管 仍 以 二 进 制 模式 打开 文件 ) 来 解决 这 一 问题 。 


import pickle 
# Bug 修正 要 感谢 : 
http://stackoverflow.com/questions/11305790/pickle-incompatability-of-numpy-arrays- 
between-python-2-and-3 
def unpickle (filename): 
with open(filename, 'rb') as fo: 
return pickle.load(fo, encoding='latinl1') 


现在 ， 用 这 个 函数 加 载 这 批 数据 。 

batchl = unpickle(batchl_filename) 

该 批 次 是 一 个 字典 ， 其 中 是 NumPy 数组 格式 的 实际 数据 、 对 应 的 标签 和 文件 名 ， 以 及 对 批 
次 本 身 的 说 明 (例如 这 是 训练 数据 集 的 5 个 批 次 中 的 第 1 抽 。 

在 该 批 次 字典 中 的 aata 键 中 取 索 引 就 能 提取 出 图 像 。 


image_index = 100 
image = batch1l['aata'][image_indqex] 


image 是 一 个 有 3072 个 元 素 的 NumPy 数组 ， 每 个 元 素 值 的 取 值 范 围 都 是 0~255。 每 个 值 代 
表 图 像 中 具体 位 置 的 红 、 绿 、 蓝 3 种 颜色 的 强度 ( intensity )。 


由 于 图 像 的 格式 与 matplotlip 中 (用 于 显示 图 像 的 ) 常用 的 格式 不 同 ， 所 以 为 了 显示 图 


像 ， 要 先 变换 数组 的 维度 ,然后 旋转 矩阵。 虽然 这 对 神经 网 络 的 训练 没什么 意义 (我们 可 以 使 神 
经 网 络 的 定义 匹配 数据 格式 )， 但 我 们 要 为 matplot1ib 执行 这 种 转换 。 


image = image.reshape((32,32, 3), order='F') 
import numpy as np 
image = np.rot90 (image, -1) 


现在 就 可 以 用 matplotlib 展示 图 片 了 。 


smatplotlib inline 
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from matplotlib import pyplot as plt 
plt.imshow (image) 


这 会 展示 出 一 舟 船 的 图 像 ， 如 图 11-3 所 示 。 





11.3 深度 神经 网 络 199 























图 11-3 


图 像 的 分 辨 率 相当 低 ， 因 为 它 只 有 32 像素 宽 、32 像素 高 。 即 便 如 此 ， 大 多 数 人 仍 能 看 出 图 
像 中 是 一 稻 船 。 我 们 能 让 计算 机 也 做 到 这 一 点 吗 ? 

你 可 以 调整 图 像 索 引 展 示 其 他 图 像 ， 感 受 这 个 数据 集 的 性 质 。 

本 章 项 目的 目的 是 构建 这 样 一 个 分 类 系统 : 它 接受 图 像 作为 输入 , 可 以 预测 图 像 中 的 对 象 是 
什么 。 不 过 在 着 手 该 项 目 之 前 , 我 们 要 先 绕 个 弯 子 ， 了 解 一 下 即将 用 于 该 项 目的 分 类 右 : 深度 神 
经 网 络 ( deep neural network )。 











11.3 ”深度 神经 网 络 


第 8 章 使 用 的 神经 网 络 有 一 些 奇特 的 理论 性 质 。 比 如 它 在 学 习 任何 映射 时 都 只 需要 单一 隐藏 
层 (虽然 这 个 中 间 层 可 能 非常 大 )。 因 其 理论 的 完善 性 ， 神 经 网 络 领域 的 研究 兽 在 20 世纪 70 年 
代 至 80 年 代 非 常 活跃 。 然 而 ， 与 支持 向 量 机 等 其 他 分 类 算法 相 比 ， 神 经 网 络 存在 几 个 问题 ， 这 
导致 它们 不 再 受 人 青睐 。 下 面 列 出 了 主要 的 几 个 问题 。 


口 问题 之 一 是 ， 许 多 神经 网 络 运行 时 所 需 的 算 力 远 远 多 于 其 他 算法 ， 而 很 多 人 缺乏 这 种 算 
力 资源 。 

口 另 一 个 问题 就 是 神经 网 络 的 训练 。 尽 管 反 向 传播 算法 已 经 为 人 所 知 有 一 段 时 间 了 ， 但 它 
在 应 用 到 大 型 神经 网 络 中 时 仍 存在 一 些 问题 : 它 需要 大 规模 的 训练 才能 稳定 权重 。 





这 些 问 题 在 最 近 得 到 了 解决 ， 这 推动 了 神经 网 络 的 复兴 。 相 比 30 年 前 ， 如 今 我 
们 不 仅 更 容易 获取 算 力 ， 而 且 训练 算法 的 进步 使 我 们 更 容易 应 用 算 力 。 [Da 


11.3.1 直观 感受 
深度 神经 网 络 与 第 8 章 中 更 基础 的 神经 网 络 之 间 的 区 别 在 于 大 小 。 
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拥有 两 个 以 上 隐藏 层 的 神经 网 络 就 可 以 视 为 深度 神经 网 络 ,实际 使 用 中 的 深度 神 
经 网 络 往往 规模 更 大 ， 层 数 更 多 ， 各 层 的 节点 数 也 更 多 。 尽 管 2005 年 左右 的 一 
些 研 究 聚 焦 于 庞大 的 层 数 , 不 过 随 着 更 智能 的 算法 的 出 现 , 运算 实际 所 需 的 层 数 
也 在 减 小 。 


虽然 大 小 确实 是 一 个 区 别 因 素 , 但 新 类 型 的 层 和 神经 网 络 的 新 结构 都 有 助 于 在 特定 领域 创建 
相应 的 深度 神经 网 络 。 我 们 已 经 见 过 了 由 稠密 层 (dense layer )“ 组 成 的 前 馈 神 经 网 络 。 这 意味 着 
我 们 拥有 一 系列 有 序 的 层 , 每 层 的 各 个 神经 元 都 连接 到 下 一 层 中 的 各 个 神经 元 。 深度 神经 网 络 还 
包括 其 他 一 些 类 型 。 















































口 卷 积 神经 网 络 ( CNN ，convolutional neural network )， 用 于 图 像 分 析 。 它 会 把 图 像 的 分 割 
作为 单 次 输入 ， 而 这 些 输入 会 被 传递 给 池 化 层 (pooling layer ) 来 组 合成 输出 。 这 有 助 于 
解决 图 像 中 的 旋转 、 平 移 问题 。 本 章 就 会 使 用 这 种 类 型 的 神经 网 络 。 

口 递归 神经 网 络 (RNN ，recurrent neural network )， 用 于 文本 和 时 间 序 列 分 析 。 这 种 网 络 是 
有 状态 的 ， 它 会 保留 上 一 个 状态 用 于 调整 当前 的 输出 。 试 想 ， 在 一 个 句子 中 前 一 个 词 修 
饰 短 语 中 当前 词 的 输出 ， 如 : United States。 其 中 最 常见 的 一 种 就 是 长 短期 记忆 ( LSTM， 
long-short term memory ) 递归 神经 网 络 。 

口 自动 编码 器 (autoencoder )， 它 通过 隐藏 层 (通常 只 有 很 少 节点 ) 从 输入 中 学 习 上 映射 ， 然 
后 再 返还 给 输入 。 它 能 找 出 输入 数据 的 压缩 方法 ， 并 且 该 层 可 以 重新 用 到 其 他 神经 网 络 
中 ， 以 减少 其 他 神经 网 络 所 需 的 有 标记 训练 数据 数量 。 


不 同 种 类 的 神经 网 络 层 出 不 穷 。 随 着 深度 神经 网 络 的 应 用 与 理论 的 研究 , 神经 网 络 的 新 形式 
也 不 断 被 发 现 。 有 的 神经 网 络 是 为 一 般 学 习 而 设计 ， 有 些 则 是 为 特定 任务 而 设计 。 不仅 如 此 ，, 神 
经 网 络 中 组 合 各 层 、 调 优 参数 以 及 调整 学 习 策 略 的 方法 都 很 丰富 。 比 如 失落 层 ( dropout layer ) 
在 训练 时 会 随机 把 某 些 权重 置 0， 以 使 整个 神经 网 络 学 习 出 优良 的 权重 。 

















































































































尽管 存在 这 些 差 异 , 但 神经 网 络 通常 都 以 非常 基础 的 特征 为 输入 。 例如 在 解决 计算 机 视觉 问 
题 时 , 特征 就 只 是 像素 值 。 通 过 神经 网 络 的 组 合 与 传递 , 这 些 基础 的 特征 值 会 形成 更 复杂 的 特征 ， 


有 时 这 些 复 杂 特 征 甚至 让 人 难以 理解 。 不 过 , 这 些 特征 却 能 以 计算 机 能 理解 的 方式 表示 样本 的 各 
个 方面 ， 从 而 帮助 计算 机 为 样本 分 类 。 



























































11.3.2 ”实现 深度 神经 网 络 


由 于 深度 神经 网 络 规 模 庞大 ， 因而 其 实现 相当 具有 挑战 性 。 相 比 良好 的 实现 , 较 
差 的 实现 不 仅 运行 时 间 长 得 多 ， 其 至 还 会 因为 占用 过 多 内 存 而 无 法 运行 。 


要 实现 一 个 基础 的 神经 网 络 , 我 们 可 以 这 样 开始 : 创建 一 个 节点 类 ,然后 把 节点 类 整合 到 层 








Oz 全 连接 层 的 另 一 种 说 法 。 一 一 译 者 注 
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类 中 。 这 样 一 来 ,每 个 节点 都 用 边 类 连接 到 了 下 一 层 的 节点 。 这 是 基于 类 的 实现 ,能 清晰 展示 神 
经 网 络 的 运作 方式 。 但是, 对 大 型 神经 网 络 而 言 ， 这 种 实现 方式 的 效率 太 低 了 。 神 经 网 络 有 太 多 
可 动 的 部 分 ， 而 这 降低 了 这 种 策略 的 效率 。 


























相反 ,大 多 数 神经 网 络 的 操作 能 用 算 阵 的 数学 表达 式 来 表示 。 神经 网 络 中 两 层 之 
间 连 接 的 权重 可 以 表示 成 矩阵 的 值 , 其 中 行 代 表 第 一 层 的 节点 , 列 代 表 第 二 层 的 
节点 (有 时 我 们 也 会 采用 这 个 矩阵 的 转 置 形式 )。 撼 阵 中 的 值 就 是 两 层 之 间 边 上 

和 的 权重 。 如 此 就 能 用 一 系列 这 样 的 权重 矩阵 来 定义 神经 网 络 了 。 除 了 节点 之 外 ， 
我 们 还 在 各 层 中 添加 一 个 偏 置 项 (bias term )， 它 基本 上 是 一 个 总 处 于 激活 状态 
的 节点 ， 会 连接 到 下 一 层 中 的 所 有 神经 元 。 


这 种 认识 与 基于 类 的 实现 不 同 ,让 我 们 可 以 以 矩 阵 操作 来 构建 、 训 练 以 及 使 用 神经 网 络 。 这 
种 数学 操作 非常 巧妙 , 因为 许多 耳熟能详 的 库 代码 是 为 矩阵 操作 高 度 优化 的 , 能 非常 高 效 地 执行 


第 8 章 中 使 用 了 scikit-learn 中 的 实现 ， 其 中 虽然 包括 构建 神经 网 络 的 一 些 特性 ， 但 缺 
少 神 经 网 络 领域 中 的 最 新 成 果 。 针 对 更 大 规模 、 更 定制 化 的 神经 网 络 , 我 们 就 需要 借助 于 功能 
强大 的 库 。 我 们 会 用 Keras 库 替 代 scikit-learn 来 创建 深度 神经 网 络 。 


本 章 一 开始 会 用 Keras 实现 一 个 基础 的 神经 网 络 ， 之 后 将 ( 几乎 完整 地 ) 重 现 第 8 章 中 的 实 
验 : 预测 图 像 中 的 字母 。 最 后 ， 我 们 会 用 比 其 复杂 得 多 的 卷 积 神经 网 络 为 CIFAR 数据 集中 的 图 
像 分 类 。 另 外 ， 在 此 过 程 中 我 们 还 会 通过 在 GPU ( 而 不 是 CPU ) 上 运行 神经 网 络 来 提升 性 能 。 


Keras 是 一 套用 图 计算 库 实现 深度 神经 网 络 的 高 级 接口 。 图 计算 库 会 描绘 出 一 系列 操作 的 概 
要 ,之 后 再 计算 其 值 。 因 为 图 计算 库 能 用 来 表示 数据 流 、 跨 多 个 系统 分 发 这 些 数据 流 ， 以 及 执行 
其 他 优化 操作 ,所 以 对 和 矩阵 操作 是 相当 有 利 的 ,Keras 支持 两 个 图 计算 库 作 为 后 端 :其 一 是 Theano， 
它 虽 然 稍微 老 一 些 , 但 人 气 也 很 旺 ( 也 是 本 书 第 1 版 采用 的 库 ); 其 二 是 TensorFlow， 是 谷歌 公 
司 近 年 发 布 的 库 , 谷歌 公司 就 是 用 这 个 库 加 强 其 深度 学 习 能 力 的 。 你 可 以 在 这 两 个 库 中 自由 选择 ， 
完成 本 章 的 学 习 。 
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TensorFlow 是 由 谷歌 公司 工程 师 设 计 的 图 计算 库 , 推动 谷歌 公司 在 深度 学 习 和 人 工 智能 领域 
取得 了 许多 进展 。 


图 计算 库 的 工作 包括 下 列 两 个 步骤。 


(1) 定义 操作 的 序列 (或 更 复杂 的 图 )， 其 中 包括 接受 输入 数据 、 操 作 数 据 和 将 数据 转换 成 
输出 。 
(2) 输入 给 定 值 ， 计 算 第 (1) 步 产生 的 图 。 
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虽然 许多 程序 员 不 会 天 天 接触 这 种 形式 的 编程 ， 但 大 多 数 程序 员 会 跟 与 此 相关 的 系统 打 交 
道 ， 那 就 是 关系 型 数据 库 (relational database )， 尤 其 是 基于 SQL 的 那 种 。 其 中 有 一 个 被 称 为 
声明 范式 〈declarative paradigm ) 的 类 似 概 念 。 程 序 员 可 能 会 在 定义 SELECT 查询 的 时 候 附 带 
WHERE 子 句 ， 而 数据 库 会 解释 SQL 语句 ， 并 基于 一 系列 因素 创建 一 个 优化 过 的 查询 ， 这 些 因 素 
包括 WHERE 子 句 能 否 应 用 在 主键 上 、 数 据 存储 的 格式 等 。SQL 语句 体现 了 程序 员 所 想 ， 而 数据 
库 系 统 会 决定 SQL 语句 的 所 为 。 


人) 你 可 以 用 Anaconda 安装 TensorFlow: conda install tensorflow。 更 多 选 
































项 见 Google 提供 的 安装 详情 页 面 。 


我 们 可 以 用 TensorFlow 定义 许多 类 型 的 孔 数 ， 用 于 操作 标量 、 数 组 、 和 矩阵 以 及 其 他 数学 表 
达 形 式 。 例 如 ， 我 们 可 以 创建 一 个 图 来 计算 二 次 等 式 。 








import tensorflow as tf 
# 定义 方程 的 参数 为 常量 
a = tf.constant (5.0) 
b = tf.constant (4.5) 
C= tf eonstantl(3s0. 
# 定义 x 为 交 量 ,允许 改变 文 的 值 
= tf.Variable(0.，name='x') # 默认 为 0.0 
# 定义 y 为 输出 ， 它 是 a、b、c 和 x 上 的 操作 
3 














这 里 的 y 是 一 个 Tensor ( 张 量 ) 对 象 ， 在 计算 完成 前 它 是 没有 实际 值 的 。 我 们 只 是 完成 了 
图 的 创建 ， 用 图 来 表示 下 面 的 内 容 : 
在 我 们 计算 y 时 ， 首 先 取 x 的 平方 ， 然 后 乘 以 a， 再 相 加 b 售 的 x， 然 后 再 给 结果 加 上 c。 


通过 TensorFlow 可 以 展示 这 个 图 本 身 。 在 Jupyter Notebook 中 运行 如 下 代码 就 能 使 这 个 图 可 
视 化 了 (代码 由 Stack Overflow 用 户 Yaroslav Bulatov 提供 , 详情 见 回 答 页 面 : http://stackoverflow. 
com/a/38192374/307363 )。 











from IPython.display import clear_ output, Image, display, HTML 


def strip_consts(graph def, max_const_ size=32): 
"" "去掉 graph_def 中 的 大 数值 。""" 
strip_def = tf.GraphDef () 
for n0 in graph_def.node: 
n = strip_def.node.add() 
n.MergeFrom(n0) 
~ 的 GO. OONSCE 
tensor = n.attr[l'value'] .tensor 
size = len(tensor.tensor_content) 
if size > max_const_size: 
tensor.tensor_content = "<stripped %d bytes>"%size 
return strip_def 
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def show_graph (graph_ def, max_const_size=32): 
""" 将 TensorFlow 中 的 图 可 视 化 """ 
if hasattr(graph def, 'as_graph def'): 
graph_def = graph_ def.as_graph_ def() 
strip_def = strip_consts(graph def, max_const_size=max_const_size) 
Sode = 
<script> 
function load() {{ 
document .getElementById("{id}") .pbtxt = {data}; 
| 小 
</script> 
<link rel="import" href="https://tensorboard.appspot.com/tf-graph-basic. 
build.html" onload=load()> 
<div style="height:600px"> 
<tf-graph-basic id="{id}"></tf-graph-basic> 
</div> 
""" .format (data=repr (str (strip_def)), id='graph'+str (np.random.rand())) 


革 下 六 这 仙人 十 坟 刘 
<iframe seamless style="width:1200px;height:620px;border:0" 
srcdoc="{}"></iframe> 


""" .format (code.replace('"', '&quot;')) 
display (HTML (iframe)) 


之 后 ， 在 新 输入 框 中 键入 如 下 代码 ， 执 行 实际 的 可 视 化 操作 。 


show_graph (tf.get_default_graph() .as_graph_ def()) 


结果 中 体现 了 前 面 各 步 操 作 是 如 何 连接 成 一 个 有 向 图 的 。 这 个 出 自 TensorFlow 的 可 视 化 平 
台 叫 作 TensorBoard， 如 图 11-4 所 示 。 








In [27]: show graph(tf.get default graph().as graph def()) 
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图 11-4 
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要 计算 y 值 ， 就 要 把 x 的 值 传 给 图 中 的 其 他 节点 。 这 些 节 点 在 图 11-4 中 被 称 作 OpNodes， 
该 名 称 是 操作 节点 ( operation node ) 的 缩写 。 


至 此 ,我们 已 经 完成 了 对 图 本 身 的 定义 。 接 下 来 ,计算 等 式 的 值 。 考 虑 到 x 是 一 个 Variable 
(变量 )， 方 法 有 很 多 。 创 建 一 个 TensorFlow 的 Session 对 象 ， 计 它 用 x 的 当前 值 计算 y。 


model = tf.global_ variables_ initializer() 
with tf.Session() as session: 

session.run (model) 

result = session.runly) 
print (result) 


上 述 代 码 中 的 首 行 会 初始 化 变量 。TensorFlow 允许 你 指定 操作 的 作用 域 和 命名 空间 。 此 时 ， 
我 们 只 采用 全 局 命名 空间 ， 该 行 中 函数 就 是 初始 化 对 应 作用 域 的 快捷 方式 ， 也 是 TensorFlow 编 
译 图 的 必要 步骤 。 


第 2 行 创 建 运行 模型 的 新 会 话 。tf.global_variables_initializer() 的 返回 值 是 图 中 
的 操作 ， 而 且 必 须要 执行 操作 ， 才 会 产生 结果 。 接 下 来 的 一 行 实际 运行 变量 y， 处 理 计算 y 值 时 
所 需 的 OpNodes。 虽 然 本 例 中 的 计算 需要 全 部 节点 ， 但 在 图 更 大 时 并 不 总 需要 计算 所 有 的 节点 。 
TensorFlow 会 为 得 出 答案 做 最 少 的 计算 。 

































































如 果 你 遇 到 了 global_variables_initializer 未 定义 的 错误 ， 就 把 它 替换 
成 initialize all variables。 这 个 接口 在 最 近 调 整 过 。 

















打印 结果 ,yy 的 值 是 3。 


我 们 还 可 以 进行 其 他 操作 ， 比 如 修改 x 的 值 。 例 如 我 们 可 以 创建 一 个 分 配 (assign ) 操作 ， 
向 现 有 的 Variable( 变量 ) 分 配 新 值 。 本 例会 把 x 的 值 改 为 10 再 计算 y 的 值 ， 结 果 会 是 548。 


model = tf.global_ variables_ initializer() 

with tf.Session() as session: 
session.run(model) 
session.run(x.assign(10)) 
result = session.runly) 

print (result) 


虽然 这 个 例子 简单 到 用 Python 也 能 实现 ， 并 没有 展现 出 TensorFlow 的 强大 实力 。 但 
TensorFlow (Theano 也 一 样 ) 中 有 大 量 的 分 布 式 选项 ,可 以 在 多 台 计 算 机 上 计算 更 大 规模 的 神经 
网 络 , 而 且 它 的 优化 工作 也 足够 到 位 , 能 保证 神经 网 络 高 效 运行 。 这 两 个 库 还 提供 了 额外 的 工具 ， 
用 以 保存 、 加 载 神经 网 络 和 其 中 的 值 ， 让 我 们 能 保存 这 两 个 库 创建 出 的 模型 。 


















































11.5 ”使 用 Keras 


TensorFlow 不 是 一 个 直接 构建 神经 网 络 的 库 。 同 样 地 ，NumPy 也 不 是 执行 数据 挖掘 的 库 ， 
它 通常 只 是 被 其 他 库 调用 ， 执 行 繁重 的 计算 任务 。TensorFlow 中 有 一 个 称 为 TensorFlow Learn 的 
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内 置 库 ， 可 以 用 于 构建 神经 网 络 和 执行 数据 挖掘 任务 。 其 他 库 ， 比 如 Keras， 也 会 基于 这 样 的 思 
路 构建 并 以 TensorFlow 为 后 端 。 


Keras 实现 了 近期 出 现 的 种 种 不 同类 型 的 层 和 构建 神经 网 络 的 组 件 。 本 章 要 用 到 的 卷 积 层 在 
设计 中 模仿 人 类 视觉 。 这 种 层 中 只 用 一 小 部 分 互相 连接 的 神经 元 分 析 输 入 值 的 一 个 片段 (在 本 例 
中 即 图 像 )。 这 能 让 神经 网 络 处 理 图像 中 的 标准 变化 ， 比 如 图 像 的 平移 。 本 例 就 是 一 个 基于 计算 
机 视觉 的 实验 ， 会 用 卷 积 层 处 理 图 像 的 平移 作为 示范 。 





























相反 ,传统 神经 网 络 的 神经 元 通常 都 连接 紧密 一 一 任何 一 个 层 的 所 有 神经 元 都 会 
连接 到 下 一 层 的 所 有 神经 元 。 这 种 层 就 是 稠密 层 。 


Keras 的 神经 网 络 标准 模型 是 Secuential (顺序 ) 模型 ， 传 人 一 个 层 的 列表 即 可 创建 该 模 
型 。 根 据 标准 的 前 馈 神 经 网 络 构造 ， 输 入 (X_train ) 会 被 传 给 第 1 个 层 ， 其 输出 将 被 传 给 下 一 
层 ， 以 此 类 推 。 


用 Keras 构建 神经 网 络 要 比 直接 用 TensorFlow 进行 构建 简单 得 多 。 除非 你 需要 高 度 定制 神经 
网 络 的 结构 ， 否 则 强烈 建议 你 使 用 Keras。 


我 们 将 基于 营 尾 数据 集 实现 一 个 基础 的 神经 网 络 , 以 介绍 用 Keras 创建 神经 网 络 的 基本 流程 。 
我 们 在 第 1 章 中 就 用 过 芒 尾 数据 集 , 该 数据 集 能 出 色 地 测试 新 算法 的 性 能 ， 即 便 是 在 深度 神经 网 
络 这 样 复杂 的 算法 中 也 是 如 此 。 


首先 ， 打 开 一 份 新 的 Jupyter Notebook。 在 本 童 后 面 的 部 分 ， 我 们 会 重 返 包含 CIFAR 数据 集 
的 笔记 本 。 


然后 加 载 数 据 集 。 


import numpy as np 

from sklearn.datasets import load iris 
iris = load_ iris() 

xX = iris.data.astype (np.float32) 
y_true = iris.target.astype (np.int32) 


在 使 用 TensorFlow 这 样 的 库 时 ， 最 好 要 显 式 指 明 数据 类 型 。 尽 管 Python 能 隐 式 转换 数值 数 
据 类 型 ， 然 而 TensorFlow 这 样 的 库 是 底层 代码 ( 在 本 例 中 是 C++ ) 的 封装 ， 并 不 总 能 支持 这 种 
数值 数据 类 型 的 转换 操作 。 
我 们 当前 的 输出 是 分 类 值 (取决 于 类 别 , 是 0、1 或 2 ) 的 单个 数组 。 虽 然 我 们 可 以 让 神经 
网 络 输出 这 种 格式 的 数据 , 但 神经 网 络 开 发 的 一 般 惯 例 是 让 神经 网 络 有 nn 个 输出 ,其 中 是 类 别 
的 数量 。 为 此 ， 我 们 要 用 独 热 编 码 方法 为 分 类 值 y 编 码 ， 生 成 y_onehot。 oN 


from sklearn.preprocessing import OneHotEncoder 


































































































y_onehot 
y_onehot 


OneHotEncoder () .fit_ transform(y_true.reshape(-1, 1)) 
y_onehot .astype (np.int64) .todense() 
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之 后 分 割 成 训练 数据 集 和 测试 数据 集 两 部 分 。 
from sklearn.model_selection import train test_split 
XxX _ train, Xx test, y_train, y_test = train test_split (x, y_onehot, 
random_ state=14) 
下 一 步 , 创建 不 同 的 层 ， 构 建 神经 网 络 。 该 数据 集中 有 4 个 输入 变量 和 3 个 输出 类 别 ， 即 虽 
然 给 出 了 神经 网 络 中 第 一 层 和 最 后 一 层 的 大 小 , 但 没有 指明 中 间 层 的 大 小 。 因 为 调整 这 些 数值 会 
产生 不 同 的 结果 , 所 以 这 些 值 变化 后 的 结果 值得 跟踪 。 先 用 下 面 的 维度 , 创建 一 个 小 型 神经 网 络 。 


input_layer_size, hidden layer_size, output_layer_size = 4, 6, 3 


然后 ， 创 建 隐藏 层 和 输出 层 ( 输入 层 是 隐 式 的 )。 本 例 使 用 Dense (稠密 ) 层 。 


from keras.layers import Dense 
hidden_ layer = Dense(output_ dim=hidden _ layer_size, 
input_dim=input_layer_size, activation='relu') 
output_layer = Dense(output_layer_size, activation='sigmoid') 
我 建议 你 尝试 不 同 的 activation () (激活 函数 ) 参 数值 , 观察 它们 对 结果 能 产生 什么 影响 。 
如 果 你 对 问题 本 身 的 掌握 有 限 ， 那 么 最 好 选用 上 面 的 默认 参数 值 ， 即 为 隐藏 层 选用 relu， 为 输 
出 层 选 用 sigmoido 


把 各 层 组 装 到 一 个 sequential 模型 中 。 

from keras.models import Sequential 

model = Sequential (layers=[hidden layer, output_layer]) 

这 里 有 一 个 必要 的 步 又, 那 就 是 编译 神经 网 络 以 创建 图 。 从 编译 步骤 中 , 我 们 能 看 出 神经 网 
络 是 如 何 训练 与 评估 的 。 下 面 代码 中 的 值 精确 定义 了 神经 网 络 收敛 的 方法 , 本 例 采 用 了 输出 神经 
元 和 期 望 值 之 间 的 均 方 误差 ( MSE，mean squared error ) 方法 。 优 化 器 的 选择 也 会 在 很 大 程度 上 
影响 收敛 效率 ， 我们 通常 要 在 速度 和 内 存 占用 间 取 舍 。 


model.compile(loss='mean squared_ error', 
optimizer='adam', 
metrics=['accuracy']) 


然后 , 用 fit () 函数 训练 模型 。Keras 模型 的 fit () 会 返回 一 个 history (历史 ) 对 象 , 让 
我 们 能 在 细 粒 度 上 查看 数据 。 

history = model.fit (x train, y_train) 

你 会 得 到 相当 多 的 输出 。 神 经 网 络 会 训练 10 轮 (epoch )。 一 轮 代 表 一 套 完整 的 训练 周期 ， 
包括 : 输入 训练 数据 、 运 行 神经 网 络 、 更 新 权重 和 评估 结果 。 如 果 你 查看 了 history 对 象 (学 
试 运行 print (history.history) )， 就 会 看 到 每 轮 过 后 的 损失 函数 分 值 ( 越 低 越 好 ) 和 准确 
率 ( 越 高 越 好 )。 你 还 能 注意 到 ， 神 经 网 络 的 效果 可 能 没有 提升 多 少 。 


用 matplotlib 为 history 对 象 绘 图 ， 结 果 如 图 11-5 所 示 。 
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import seaborn as sns 


from matplotlib import pyplot as plt 

plt.plot (history.epoch, history.history['loss']) 
plt .xlabel ("Epoch") 

plt.ylabel ("Loss") 
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如 图 11-5 所 示 ， 虽 然 训练 损失 在 降低 ， 但 也 没有 降低 多 少 。 这 就 是 神经 网 络 的 问题 之 一 ， 
训练 速度 慢 。 默 认 情 况 下 fit () 函数 只 会 执行 10 轮 ， 这 对 几乎 任何 一 个 应 用 而 言 都 是 远 远 不 够 
的 。 我 们 用 神经 网 络 预测 测试 数据 集 并 运行 分 类 报告 以 展示 这 一 现象 。 

from sklearn.metrics import classification _ report 


y_pred = model.predict_ classes (X_ test) 
print (classification reportl(y_true=y_test.argmax(axis=1), y_pred=y_pred)) 


其 结果 相当 差 ， 不 仅 整体 的 EL-score 只 有 0.07， 分 类 器 还 把 所 有 的 样本 都 预测 成 了 类 别 2。 
起 初 这 会 让 人 觉得 神经 网 络 不 过 如 此 ， 但 训练 1000 轮 后 再 回头 看 ， 情 况 会 大 不 相同 。 


history = model.fit (x train, y_train, nb_epoch=1000, verbose=False) 
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我 们 依旧 要 将 每 一 轮 的 损失 函数 值 可 视 化 , 在 运行 像 神经 网 络 这 样 的 迭代 式 算法 时 , 可 视 化 
这 一 方法 相当 实用 。 如 图 11-6 所 示 ， 运 行 上 面 的 代码 后 ， 结 果 大 有 改观 。 








Loss 


Epoch 











最 后 ， 青 次 运行 分 类 报告 来 查看 结果 。 


y_pred = model.predict classes (X_test) 
print (classification reportl(y_ true=y_test.argmax(axis=1), y_pred=y_pred)) 


结果 很 完美 。 








卷 积 神经 网 络 


本 节 将 重新 实现 第 8 章 中 的 示例 ， 并 用 Keras 分 析 图 像 ， 以 预测 图 像 中 的 字母 。 我 们 会 重新 
创建 第 8 章 中 的 稠密 神经 网 络 。 为 此 , 我 们 要 在 笔记 本 中 访问 创建 数据 集 的 代码 。 关 于 下 面 代码 
的 解释 见 第 8 章 ( 请 记得 更 新 Coval 字体 的 文件 位 置 )。 

import numpy as np 


from PIL import Image, ImageDraw, ImageFont 
from skimage import transform as tf 











def create captcha (text, shear=0, size=(100, 30), scale=1): 
im = Image.new("L", size, "black") 
draw = ImageDraw.Draw (im) 
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font = ImageFont.truetypel(r"bretan/Coval-Black.otf", 22) 
draw.text((0, 0), text, fill=1, font=font) 

image = np.array (im) 

affine_ tf = tf.AffineTransform(shear=shear) 

image = tf.warp (image, affine_ tf) 

image = image / image.max() 

shape = image.shape 

# 应 用 缩放 

shapex, shapey = (Shape[0] * Scale，shape[1] * scale) 
image = tf.resize(image, (shapex, shapey)) 

return image 


from skimage.measure import label, regionprops 
from skimage.filters import threshold otsu 
from skimage.morphology import closing, square 


def segment_image (image): 
# 标记 函数 能 找 出 连通 的 非 黑色 像素 组 成 的 子 图 像 
labeled_image = label (image>0.2, connectivity=1, background=0) 
subimages = [] 
# 用 regionprops 函数 分 离子 图 像 
for region in regionprops (labeled image): 


# 提取 子 图 像 








start_x, start y, end x, endy = region.bbox 
subimages.append (image[start x:end x,start_y:end y]) 
if len(subimages) == 0: 


# 没有 找到 子 图 像 ， 则 返回 完整 图 像 
return [image,] 
return subimages 


from sklearn.utils import check_random state 
random_ state = check_ random state(14) 
letters = list ("ABCDEFGHIJKLMNOPORSTUVWXYZ") 
assert len(letters) == 26 
shear_values = np.arange(0, 0.8, 0. ) 
Scale_values = np.arange(0.9, 1.1, 下 》 
def generate_sample(random state=None): 

random_state = check_random state(random_ state) 

letter = random state.choice(letters) 

shear = random_ state.choice(shear_values) 

scale = random state.choice(scale _ values) 

return create captchal(letter, shear=shear, size=(30, 30), scale=scale), 
Jetters.index(letter) 


dataset, targets = zip(*(generate sample(random state) for i in 


range(1000))) 
dataset = np.array ([tf.resize(segment_image (sample) [0], (20, 20)) for 
sample in dataset]) 
dataset = np.array (dataset, dtype='float') 


targets = np.array (targets) 





from sklearn.preprocessing import OneHotEncoder 
onehot = OneHotEncoder() 
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onehot.fit_ transform(targets.reshape (targets.shape[0],1)) 


Y = 
y = y.todense!() 
xX = dataset.reshape((dataset.shape[0], dataset.shape[l1] * 


dataset .shape[2])) 


from sklearn.model_ selection import train test_ split 
XxX_ train, XxX_ test, y_train, y_test = train test_split (xXx, y, train size=0.9) 


重新 运行 上 面 的 代码 后 ,你 就 有 了 一 份 与 第 8 章 实 验 中 类 似 的 数据 集 了 。 但 接 下 来 , 我 们 用 
来 实现 神经 网 络 的 库 不 是 scikit-learn， 而 是 Keras。 


首先 , 创建 两 个 pense (稠密 ) 层 并 将 其 组 合 到 一 个 sequential (顺序 ) 模型 中 。 本 节选 
择 在 隐藏 层 中 放置 100 个 神经 元 。 


from keras.layers import Dense 

from keras.models import Sequential 

hidden_ layer = Dense(100，input_dqim=X train.shape[1]) 

output_layer = Densel(ly_train.shape[1]) 

# 创建 模型 

model = Sequential (layers=[hidden layer, output_layer]) 

model.compile(loss='mean _ squared error', optimizer='adam', 
metrics=['accuracy']) 


然后 ,训练 模型 。 由 于 前 面 的 那些 原因 ,你 会 需要 相当 多 的 训练 轮 数 。 本 节 还 是 设置 训练 轮 
数 为 1000， 如 果 你 想 要 更 好 的 结果 ， 可 以 增 大 这 一 数值 。 


model.fit (x train, y_train, nb_epoch=1000, verbose=False) 
y_pred = model.predict (Xx_test) 


你 同样 可 以 像 在 意 尾 例子 中 一 样 采集 history 对 象 中 的 信息 ， 进 一 步 研究 训练 过 程 。 


from sklearn.metrics import classification report 
print (classification report(y_pred=y_pred.argmax (axis=1), 
y_true=y_test.argmax (axis=1))) 


我 们 再 一 次 取得 了 完美 的 结果 。 
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6 至 少 在 我 的 计算 机 上 是 这 样 ， 你 的 结果 可 能 稍微 有 些 出 入 。 


11.6 GPU 优化 


神经 网 络 在 扩张 到 一 定 规模 之 后 ,会 对 内 存 占 用 有 一 定 的 影响 。 不 过 , 在 采用 稀 玻 矩阵 之 类 
的 高 效 数 据 结构 之 后 ， 在 内 存 中 训练 神经 网 络 就 不 再 是 问题 了 。 





神经 网 络 规模 变 大 之 后 的 主要 问题 是 其 所 需 的 计算 时 间 非 常 长 。 此 外 , 某 些 数据 
集 和 神经 网 络 需 要 训练 许多 轮 才 能 达到 训练 好 的 状态 。 
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尽管 我 的 计算 机 性 能 相当 强大 ,然而 它 运 行 本 音 的 神经 网 络 每 轮训 练 至 少 要 耗费 8 分 钟 ， 而 
我 们 还 希望 运行 数 十 轮 ， 甚 至 是 上 百 轮 。 某 些 大 型 神经 网 络 完成 一 轮训 练 可 能 需要 数 个 小 时 。 为 
了 获得 最 佳 性 能 ， 你 可 能 会 考虑 训练 数 干 轮 。 


神经 网 络 的 规模 与 训练 时 间 成 正比 。 


神经 网 络 有 一 个 有 利 的 特性 , 那 就 是 它们 内 部 都 是 译 点 运算 。 而 且 由 于 神经 网 络 的 训练 主要 
是 矩阵 运算 ， 因 而 大 部 分 运算 可 以 并 行 执行 。 这 些 因素 让 人 不 禁 想 到 用 GPU 完成 计算 来 提升 训 
练 速 度 的 方法 。 





























11.6.1 适用 GPU 的 计算 场景 


GPU 原本 是 为 泻 染 显示 图 形 而 设 计 的 。 这 些 图 像 是 由 矩阵 以 及 矩 阵 的 数学 方程 式 表 示 的 ， 
之 后 它们 会 被 转换 成 屏幕 上 可 见 的 像素 。 这 个 过 程 就 会 涉及 大 量 的 并 行 计算 。 尽 管 现今 的 CPU 有 
多 个 核心 (2 核 、4 核 ， 甚 至 16 核 或 更 多 ! )， 然 而 GPU 有 成 千 上 万 个 专门 为 图 形 设计 的 小 核心 。 

由 于 CPU 的 单 核 性 能 好 ， 因 而 它 在 执行 诸如 访问 计算 机 内 存 的 任务 时 效率 很 高 ， 适 合 执行 
顺序 任务 。 而 且 ， 因 为 让 CPU 执行 高 负载 任务 比较 容易 ， 所 以 几乎 所 有 机 器 学 习 库 都 默认 使 用 
CPU。 因 此 要 想 让 GPU 参与 计算 ， 还 需要 一 些 额外 工作 。 但 是 这 么 做 效果 会 非常 突出 ! 

GPU 更 适合 并 行 执行 大 量 简单 的 数值 运算 。 因 为 许多 机 器 学 习 任 务 采用 这 种 计算 方式 ， 所 
以 可 以 使 用 GPU 来 提升 运算 效率 。 

要 让 代码 在 GPU 上 运行 起 来 ,你 会 遭遇 一 些 令 人 诅 丧 的 问题 , 这 取决 于 你 拥有 的 GPU 的 类 
型 、 其 配置 方式 、 计 算 机 的 操作 系统 等 因素 。 不 仅 如 此 , 你 还 要 准备 好 对 计算 机 做 一 些 底层 改动 。 















































幸运 的 是 ， 如 果 Keras 发 现 运算 适用 于 GPU， 并 且 找到 了 可 用 的 GPU (而 且 还 
人 用 TensorFlow 作为 后 端 )， 它 就 能 自动 利用 GPU 完成 运算 。 不 过 你 仍然 需要 设 
置 计算 机 ， 以 便 Keras 和 TensorFlow 找到 GPU。 


有 3 种 主要 途径 可 供 选 取 。 


口 第 一 种 ， 看 一 下 你 的 计算 机 型 号 ， 为 你 的 GPU 搜索 相应 操作 系统 的 工具 和 驱动 ， 并 探寻 
各 类 教程 找 出 适用 于 当前 场景 的 方法 。 这 个 方法 能 否 奏 效 ， 取 决 于 你 的 系统 。 不 过 ， 最 
近 几 年 出 现 了 更 好 的 工具 与 驱动 ， 这 大 大 简化 了 在 计算 中 启用 GPU 的 场景 。 

口 第 二 种 ， 选 择 一 套 系统 配置 ， 寻 找 详细 的 设置 文档 ， 购 买 一 套 匹 配 的 系统 。 这 样 的 效果 
会 更 好 ， 不 过 也 会 相当 贵 。 在 当今 的 计算 机 中 ，GPU 是 最 为 昂贵 的 部 件 之 一 。 如 果 你 想 
要 构建 一 套 性 能 优异 的 系统 ， 就 需要 一 颗 性 能 相当 强劲 的 GPU， 但 它 的 价格 也 很 可 观 。 
如 果 是 为 了 商业 用 途 (或 者 预算 充足 ), 你 就 可 以 特别 为 深度 学 习 选 购 高 端 GPU。 你 可 以 

直接 与 供应 商 沟通 ， 以 保证 购置 的 硬件 合理 有 效 。 
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口 第 三 种 ,使 用 已 经 配置 好 的 用 于 神经 网 络 计算 的 虚拟 机 。 例 如 ，Altoros Systems 公司 就 在 
AWS (Amazon's Web Service ) 上 创建 了 这 样 的 系统 。 虽 然 这 种 系统 的 运行 是 收费 的 ， 但 
费用 要 比 购置 新 计算 机 便宜 的 多 。 该 系统 根据 你 的 位 置 、 具 体系 统 型 号 与 用 量 收费 ， 而 
你 的 支出 可 能 不 到 1 美元 每 小 时 ,通常 费用 甚至 会 远 少 于 这 个 数 。 如 果 你 采用 AWS 中 的 
竞价 型 ( spot ) 实例 ,那么 运行 的 花费 只 有 每 小 时 几 美 分 (不 过 ,为 了 能 在 竞价 型 实例 运 
行 ， 你 要 单独 开发 代码 )。 

































































如 果 你 支付 不 起 虚拟 机 的 费用 ,我 建议 你 研究 第 一 种 途径 ,用 现 有 系统 完成 任务 。 
3 你 也 可 以 从 经 常 升级 计算 机 的 亲友 手中 淘 到 一 块 不 错 的 二 手 GPU ( 游戏 爱好 者 
这 时 就 能 帮 上 忙 了 ! )。 


11.6.2 ”在 GPU 上 运行 代码 


本 章 采 用 的 是 第 三 种 途径 , 即 创建 一 台 基 于 Altoros Systems 基础 系统 的 虚拟 机 , 它 将 被 运行 
在 亚马逊 弹性 计算 云 服 务 (Amazon's EC2 Service ) 中 ， 你 也 可 以 用 其 他 的 云 服务 ， 但 操作 流程 
各 有 细微 差异 。 本 节 只 介绍 亚马逊 云 服务 的 操作 流程 。 


如 果 你 想 用 自己 的 计算 机 完成 计算 并 且 已 经 完成 了 让 GPU 参与 运算 的 配置 工作 ， 那 么 你 可 
以 放心 地 跳 过 本 市 。 











欲 了 解 关于 配置 的 更 多 详情 ,请 登录 AWS Marketplaces 网 站 ,搜索 “Ubuntu x64 
AMI with TensorFlow (GPU )。 


(1) 从 AWS 控制 台 开 始 : https://console.aws.amazon.com/console/home?region=us-east-1。 

(2) 登 人 亚马逊 账号 以 继续 。 如 果 没 有 账号 ， 就 根据 提示 注册 一 个 。 

(3) 接 下 来 , 访问 EC2 服务 控制 台 : https://console.aws.amazon.com/ec2/v2/home?region=us-east-1。 

(4) 点 击 Launch Instance 然后 在 Location 下 拉 列 表 的 右上 角 找 到 N.Califonia 并 选择 它 。 

(5) 点 击 Community AMIs 查找 Ubuntu x64 AMI with TensorFlow (GPU)， 这 个 型 号 的 虚拟 
机 是 Altoros Systems 创建 的 。 然 后 点 击 Select。 在 下 一 屏 中 选择 虚拟 机 类 型 g92.2xlarge， 然 后 点 
击 Review and Launch。 在 随后 一 屏 中 再 点 击 Launch。 

(6) 此 时 将 会 收取 费用 ， 因 此 请 记得 在 用 完 后 关闭 虚拟 机 。 你 可 以 在 EC2 服务 中 选择 虚拟 机 
然后 停止 它 的 运行 。 没 有 处 于 运行 状态 的 虚拟 机 不 会 产生 费用 。 

(7) AWS 会 提示 你 关于 连接 到 实例 的 方法 的 一 些 信息 。 如 果 以 前 没 用 过 AWS , 那么 你 可 能 需 
要 创建 用 于 安全 连接 实例 的 密 钥 对 。 此 时 请 给 密 钥 对 起 名 ， 下 载 pemfile 并 将 其 安全 妥善 地 保 
存 。 如 果 你 弄 丢 了 密 钥 对 ， 就 再 也 不 能 连接 实例 了 ! 

(8) 点 击 Connect 以 了 解 如 何 用 pem 文件 连接 实例 。 最 常见 的 场景 就 是 用 ssh 连接 实例 ， 命 
令 如 下 。 


SSh -i < 证 书 名 >.pem ubuntu@< 服 务 器 IP 地 址 > 
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11.6.3 ”设置 环境 
下 面 ， 把 代码 放置 到 虚拟 机 中 。 尽 管 其 方法 很 多 ， 不 过 最 简单 的 还 是 复制 粘贴 。 


首先 ， 开 启 之 前 用 过 的 Jupyter Notebook ( 在 本 机 里 ， 而 不 是 亚马逊 上 的 虚拟 机 里 )， 点 击 笔 
记 本 本 身 菜单 中 File， 然 后 选择 Download as 下 的 Python ， 把 代码 保存 到 计算 机 中 。 这 
会 下 载 Jupyter Notebook 中 的 代码 ， 并 将 其 保存 成 Python 脚本 的 形式 ， 之 后 该 脚本 就 能 在 命令 和 
中 运行 。 


























打开 该 文件 (在 某 些 系统 中 , 你 可 能 需要 用 右键 点 击 文 件 并 选择 在 某 个 文本 编辑 器 中 将 其 打 
开 )。 选 择 全 部 内 容 然后 将 其 复制 到 剪贴 板 中 。 
在 亚马逊 上 的 虚拟 机 中 ， 移 动 到 用 户主 目录 ， 用 新 文件 名 打开 nano。 


$ cd~/ 
$ nano chapterllscript .py 


这 会 打开 nano 程序 ， 它 是 一 个 命令 行 下 的 文本 编辑 器 。 

nano 程序 打开 后 ， 把 剪贴 板 中 的 内 容 粘 贴 到 文件 中 。 在 某 些 系统 中 你 需要 使 用 ssh 程序 的 文 
件 选项 ， 而 不 是 直接 按 Ctrl+V 粘贴 。 

在 nano 中 ， 按 Ctrl+O 把 文件 保存 到 磁盘 中 ， 然 后 按 Ctrl+X 推出 程序 。 


你 还 需要 字体 文件 。 简 单 起 见 ， 再 次 从 原始 位 置 下 载 即 可 。 请 输入 如 下 命令 。 


$ wget 
http://openfontlibrary.org/assets/downloads/bretan/680bc56bbeeca95353ede363a3744fdf/ 
bretan.zip 




















$ sudo apt-get install unzip 

$ unzip -p bretan.zip 

还 是 在 虚拟 机 里 ， 请 用 下 面 的 命令 运行 程序 。 

$ python chapterllscript.py 

程序 会 如 之 前 在 Jupyter Notebook 中 一 样 运行 ， 其 结果 会 打印 到 命令 行 中 。 


其 结果 应 该 跟 之 前 运行 时 一 样 , 但 神经 网 络 实际 训练 与 实际 测试 的 过 程 会 快 很 多 。 注 意 这 
程序 的 其 他 部 分 并 没有 变 快 很 多 ， 这 是 因为 我 们 没有 用 GPU 去 创建 验证 码 数据 集 。 








你 可 以 暂时 关闭 Amazon 虚拟 机 来 省 些 钱 。 虽 然 本 章 的 最 后 还 会 用 到 它 来 完成 主 
要 实验 ， 不 过 你 可 以 先 在 自己 的 主力 计算 机 上 开发 代码 。 
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11.7 ”应 用 


现在 回 到 你 的 主力 计算 机 ， 打 开 在 本 章 创建 的 第 一 份 Jupyter Notebook ， 也 就 是 用 来 加 载 
CIFAR 数据 集 的 那 份 。 在 这 个 主要 实验 中 ， 我 们 会 以 CIFAR 数据 集 为 例 ， 创 建 一 个 深度 卷 积 神 
经 网 络 ， 然 后 在 基于 GPU 的 虚拟 机 上 运行 它 。 








11.7.1 获取 数据 


首先 ， 读 取 CIFAR 数据 集中 的 图 像 ， 以 此 创建 数据 集 。 与 前 面 不 同 ， 我 们 要 保留 像素 的 行 
列 结构 。 请 先 把 所 有 批 次 放置 到 一 个 列表 中 。 


import os 











import numpy as np 


data_folder = os.path.join(os.path.expanduser ("~"), "Data", "cifar-10- 
batches-py") 


batches = [] 

for i in range(1, 6): 
batch_filename = os.path.join(data_ folder, "data batch_{}".format (i)) 
batches.append (unpickle(batch_ filename)) 
break 


最 后 一 行 的 break 是 为 了 大 幅 减少 训练 样本 数量 以 测试 代码 ， 它 让 我 们 能 很 快 看 出 代码 是 
否 在 正常 工作 。 测 试 过 代码 后 ， 我 会 提示 你 删除 这 行 。 

接 下 来 ， 由 下 到 上 堆 释 批 次 ,创建 数 据 集 。 这 里 用 到 了 NumpPy 的 vstack () 函数 ， 其 原理 
可 以 理解 为 在 数组 的 最 后 添加 行 。 

xX = np.vstack([batch['data'] for batch in batches]) 

然后 ， 把 数据 集 归 一 化 到 0~1 这 一 区 间 ， 再 把 数据 类 型 强制 转换 为 32 位 单 精度 浮 点 数 ( 这 
是 我 们 运行 的 虚拟 机 中 的 GPU 支持 的 唯一 数据 类 型 )。 


X 
































np.array (X) / XxX.max() 
xX.astype (np.float32) 


之 后 ， 对 类 别 值 做 相同 的 处 理 , 但 要 用 hstack 堆 琶 ,这 相当 于 在 数组 的 最 后 添加 列 。 然 后 
我 们 可 以 用 oneHotEncoder 把 它 转换 成 独 热 数 组 。 不 过 ， 我 在 这 里 用 了 另 一 种 方法 : 用 Keras 
中 的 实用 函数 。 但 是 两 种 方法 的 结果 都 是 一 样 的 。 

from keras.utils import np_utils 

y = np.hstack (batch['labels'] for batch in batches) .flatten() 


nb_classes = len(np.unique(y)) 
y = np_utils.to_ categorical(ly, nb_classes) 


下 一 步 ， 把 数据 集 分 割 成 训练 数据 集 和 测试 数据 集 两 份 。 


中 
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from sklearn.model_ selection import train test_ split 
XxX_ train, Xx _ test, y_train, y_test = train test_split (XxX, y, test_size=0.2) 


再 之 后 ， 变 换 数组 维度 以 保留 原始 数据 结构 。 原 始 数据 是 32 像素 x32 像素 的 图 像 ， 每 个 像 
素 有 3 个 值 (分 别 代 表 红 、 绿 、 蓝 的 强度 )。 比 起 标准 前 馈 神经 网 络 只 能 接受 单个 数组 作为 输入 
数据 ( 见 第 8 章 的 验证 码 示例 )， 卷 积 神经 网 络 是 为 处 理 图 像 而 构建 的 ， 它 能 接受 三 维 的 图 像 数 
据 〈 图 像 是 二 维 的 ， 另 一 个 维度 是 颜色 深度 )。 

XxX_ train = Xtrain.reshape(-1，3，32，32) 

X_ test = X test.reshape(-1, 3, 32, 32) 

n_samples, d, h, w = X_train.shape # 获取 数据 集 各 维度 

# 将 其 转化 为 浮 点 并 保证 数据 被 归 一 化 。 


XxX train = XxX train.astype('float32') 
X_ test = X test.astype('float32') 


现在 , 我 们 就 有 了 熟悉 的 训练 数据 集 和 测试 数据 集 , 还 有 对 应 的 目标 类 别 。 这样 一 来 就 可 以 
构建 分 类 器 了 。 




















11.7.2 ”创建 神经 网 络 


现在 我 们 要 构建 卷 积 神经 网 络 。 我 做 了 一 些 调整 ， 找 出 了 一 种 合适 的 结构 ,不 过 你 也 可 以 试 
验 更 多 (或 更 少 ) 不 同类 型 、 不 同 大 小 的 层 。 神 经 网 络 规模 越 小 ,训练 越 快 。 但 其 规模 越 大 ， 达 
成 的 效果 越 好 。 

首先 创建 神经 网 络 中 的 各 层 。 


from keras.layers import Dense, Flatten, Convolution2D, MaxPooling2D 




















Convl = Convolution2D(32, 3, 3, input_shape=(d, h, w), activation='relu') 
pooll = MaxPooling2D() 

Conv2 = Convolution2D(64, 2, 2, activation='relu') 

Pool2 = MaxPooling2D() 

conV3 = Convolution2D(128, 2, 2, activation='relu') 

Pool3 = MaxPooling2D() 

flatten Flatten() 


hidden4 = Dense(500, activation='relu') 


hidden5 Dense(500, activation='relu') 
output = Dense(nb_classes, activation='softmax') 
layers = [convl, pooll, 


GONY2., - BOOL2 

ConVe. "DOOL3, 

flatten, hidden4, hidden5, 
output] 


我 们 像 在 正常 的 前 馈 神经 网 络 中 一 样 , 在 最 后 3 层 使 用 了 稠密 层 , 但 是 前 面 的 几 层 是 3 组 卷 oe 
积 层 与 池 化 层 (pooling layer ) 的 组 合 。 
































在 每 对 convolution2D 和 MaxPooling2D 层 中 会 执行 这 样 的 计算 。 
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(1) convolution2D 层 会 通过 过 滤器 , 用 矩阵 变换 操作 给 输入 数据 打 补 丁 。 过 滤 需 是 与 文 持 
向 量 机 中 使 用 的 核算 子 类 似 的 矩阵 ， 但 是 要 小 一 些 。 其 大 小 是 ixz (在 上 面 的 convolution2D 的 
初始 化 函数 中 指定 了 3x3 )， 会 在 图 像 中 按 kxn 寻找 模式 。 其 结果 是 卷 积 特征 〈 convolved feature )。 
(2) MaxPooling2D 层 接受 convolution2D 层 的 结果 ， 从 每 个 卷 积 特征 中 找 出 最 大 值 。 


虽然 会 丢失 很 多 信息 ,但 这 确实 对 图 像 检 测 有 帮助 。 如 果 图 像 中 的 对 象 有 儿 个 像素 向 右 偏 移 ， 
那么 标准 的 神经 网 络 会 认为 它 是 一 幅 全 新 的 图 像 。 相 反 ， 卷 积 神经 网 络 能 找 出 对 象 ， 其 输出 结果 
与 偏 移 前 几乎 一 样 ( 这 当然 也 取决 于 其 他 各 种 各 样 的 因素 )。 


图 像 数据 通过 这 些 成 对 的 卷 积 层 与 池 化 层 后 , 特征 会 进入 这 个 神经 网 络 的 稠密 层 部 分 。 这 些 
特征 是 元 特征 , 表示 图 像 中 抽象 概念 而 不 是 具体 实质 。 这些 元 特征 通常 可 以 可 视 化 , 会 产生 类 似 
于 一 小 段 向 上 的 线 这 样 的 特征 。 


接 下 来 , 把 这 些 层 组 合 到 一 起 , 构建 神经 网 络 并 训练 它 。 这 次 训练 花费 的 时 间 要 比 之 前 长 得 
多 。 我 推荐 从 10 轮训 练 开 始 ， 确 认 整 套 代 码 工 作 正 常 后 再 重新 运行 100 轮训 练 。 另 外 ， 在 你 确 
认 代 码 能 正常 运行 并 产生 预测 后 ， 回 到 前 面 的 代码 中 创建 数据 集 的 部 分 ， 去 掉 〈 批 次 循环 中 的 ) 
break 一 行 。 这 样 ， 会 让 代码 用 全 部 样本 参与 训练 ， 而 不 只 是 第 1 批 次 。 

model = Sequential (layers=layers) 

model.compile(loss='mean squared_ error', optimizer='adam', metrics=['accuracy']) 

import tensorflow as tf 


history = model.fit (x train, y_train, nb_epoch=25, verbose=True, 
validation data=(X test, y_test),batch size=1000)) 


最 后 ， 用 神经 网 络 执行 预测 并 评估 结果 。 


y_pred = model.predict (Xx_test) 

from sklearn.metrics import classification report 

print (classification report(y_pred=y_pred.argmax (axis=1), 
y_true=y_test.argmax (axis=1))) 


在 运行 100 轮 后 , 虽然 结果 可 能 还 不 算是 尽善尽美 , 不 过 已 经 足够 出 色 了 。 如 果 你 有 足够 的 
时 间 让 代码 (彻夜) 运行 1000 轮 。 虽 然 准确 率 会 有 增长 ， 但 对 投入 时 间 的 回报 是 递减 的 。 这 里 
有 一 条 (不 太 好 的 ) 经 验 法 则 : 如 果 想 让 错误 率 减 半 ， 就 要 把 训练 时 间 加 倍 。 





































































































11.7.3 ”组装 成 型 
至 此 , 本 章 的 神经 网 络 代码 已 经 奏效 了 , 我 们 可 以 在 远程 计算 机 上 用 训练 数据 集训 练 它 。 如 
果 你 是 用 本 地 计算 机 运行 神经 网 络 ， 可 以 跳 过 本 节 。 


我 们 需要 把 脚本 上 传 到 虚拟 机 中 。 如 前 面 所 述 , 点 击 File|Download 把 代码 作为 Python 脚本 
保存 到 你 的 计算 机 中 的 某 处 。 开 启 并 连接 到 虚拟 机 ， 按 之 前 的 方法 上 传代 码 (我 把 脚本 命名 为 
chapterllcifar.py， 如 果 你 使 用 了 不 同 的 文件 名 ， 只 需 对 应 修改 下 面 的 代码 )。 





























11.8 ”本 章 小 结 217 














接 下 来 ， 把 数据 集 下 载 到 虚拟 机 中 。 最 简单 的 方法 就 是 在 虚拟 机 中 键入 如 下 命令 。 

$ wget http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz 

这 条 命令 会 下 载 数 据 集 。 下 载 完成 后 ， 你 就 可 以 把 数据 解压 到 Data 文件 夹 中 。 请 先 创 建文 
件 夹 ， 然 后 解压 数据 。 


$ mkdir Data 
$ tar -zxf cifar-10-python.tar.gz -C Data 


最 后 运行 示例 代码 。 

$ python3 chapterllcifar.py 

你 首先 就 会 注意 到 代码 运行 速度 得 到 了 极 大 的 提升 。 在 我 的 家 用 计算 机 上 ， 每 轮 运行 需要 
100 秒 以 上 。 在 启用 了 GPU 参与 计算 的 虚拟 机 上 ， 每 轮 则 只 需要 16 秒 ! 如 果 我 在 自己 的 计算 机 
上 运行 100 轮 ， 差 不 多 要 3 个 小 时 ， 而 在 虚拟 机 中 则 只 要 26 分 钟 。 
显著 的 速度 提升 让 我 们 可 以 更 快 测试 不 同 的 模型 。 在 测试 机 器 学 习 算法 时 , 单个 算法 的 计算 
复杂 度 其 实 没 什么 影响 ， 因 为 一 个 算法 运行 只 会 花费 数秒 、 数 分 钟 或 者 数 小 时 。 如 果 你 只 运行 一 
个 模型 , 训练 时 间 也 不 是 很 重要 , 因为 在 大 多 数 机 吕 学 习 模 型 的 最 常见 场景 中 , 也 就 是 做 预测 时 ， 
算法 运行 速度 会 相当 快 。 

不 过 ， 如 果 要 调整 许多 参数 ， 你 就 需要 训练 成 千 上 万 个 参数 有 细微 差异 的 模型 。 此 时 ， 提升 
速度 就 是 一 个 不 可 忽视 的 问题 了 。 


在 花费 26 分 钟 完成 100 轮训 练 后 ， 你 会 得 到 这 样 的 结果 输出 。 





















































0.8497 
还 不 赖 ! 为 了 进一步 改善 结果 我 们 既 可 以 训练 更 多 轮 ， 也 可 以 调整 参数 ， 比 如 更 多 的 隐藏 节 
点 、 更 多 的 卷 积 层 或 一 个 额外 的 稠密 层 。 虽 然 一 般 而 言 ， 卷 积 层 更 适合 计算 机 视觉 问题 ， 不 过 你 











也 可 以 试 试 Keras 中 其 他 类 型 的 层 。 


11.8 ”本 章 小 结 


本 章 着 眼 于 利用 深度 神经 网 络 ， 尤其 是 卷 积 神经 网 络 , 解决 计算 机 视觉 问题 。 为 此 ,我 们 采 
用 了 Keras 包 。 它 以 TensorFlow 或 Theano 为 计算 后 端 ， 用 Keras 的 辅助 函数 ,构建 神 经 网 络 相 
对 简单 。 

为 卷 积 神经 网 络 就 是 为 解决 计算 机 视觉 问题 而 设计 的 ， 所 以 我 们 无 须 惊讶 于 其 结果 之 精 
确 。 最 终结 果 显 示 ， 在 当下 的 算法 与 算 力 的 帮助 下 ， 计 算 机 视觉 的 应 用 是 很 高 效 的 。 


我 们 还 利用 启用 GPU 参与 计算 的 虚拟 机 大 幅 提升 了 运行 速度 ， 这 比 我 自己 的 计算 机 快 了 将 
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近 10 倍 。 如 果 你 仍 有 余力 运行 这 类 算法 ,那么 云 计 算 服务 商 的 虚拟 机 会 是 一 种 高 效 的 选择 〈 
常 收费 低 于 每 小 时 1 美元 )， 但 是 请 记得 在 完成 任务 后 关闭 虚拟 机 。 


你 还 可 以 扩展 本 章 的 内 容 , 通过 调整 网 络 结构 来 使 准确 率 在 现 有 基础 上 进一步 提升 。 另 一 种 
方式 是 通过 创建 更 多 数据 来 提升 准确 率 。 你 可 以 自己 动手 拍照 ( 这 会 很 慢 ) 或 修改 现 有 图 片 (这 
要 快 得 多 ), 你 可 以 用 上 下 翻转 图 片 、 旋 转 、 错 切 等 方式 修改 图 片 。Keras 为 这 种 需求 提供 了 相当 
有 用 的 函数 ， 详 情 请 参考 其 文档 。 


另 一 个 值得 探索 的 领域 是 神经 网 络 结构 的 变化 ， 如 更 多 节点 、 更 少 节 点 、 更 多 层 等 。 你 也 可 
以 尝试 不 同类 型 的 激活 函数 、 不 同类 型 的 层 和 不 同 的 组 合 方式 。 


本 章 关注 的 算法 非常 复杂 。 卷 积 神经 网 络 既 需要 很 长 的 训练 时 间 ， 也 需要 训练 很 多 参数 。 从 
根本 上 来 讲 ， 虽 然 本 章 用 了 一 个 很 大 的 数据 集 , 但 数据 本 身 相 比 之 下 很 小 一 一 我 们 没有 用 稀 玻 和 矩 
阵 就 把 数据 全 部 加 载 到 内 存 中 了 。 下 一 章 会 介绍 一 种 简单 得 多 的 算法 , 但 是 其 所 对 应 的 数据 集 大 
到 内 存 难以 容纳 。 这 就 是 大 数据 的 基础 ， 它 支撑 着 数据 挖掘 在 许多 行业 中 的 大 规模 应 用 , 在 采矿 
业 、 社 交 网 络 等 行业 中 都 有 它 的 身影 。 





Ea 
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现今 的 各 类 系统 正在 生成 、 记 录 来 自 客户 喜好 、 分 布 式 系统 、 网 络 分 析 


、 传 感 器 以 及 更 多 其 


他 源头 的 信息 , 因此 数据 量 正在 以 指数 级 增长 。 尽 管 当前 移动 端 数据 的 大 趋势 正在 推动 这 种 增长 ， 














然而 在 不 久 的 未 来 ， 物 联网 将 会 接替 移动 端的 位 置 ， 把 这 种 增长 趋势 提升 到 一 个 新 高 度 。 














这 对 于 数据 控 据 而 言 是 一 种 全 新 的 思考 方式 。 运 行 时 间 长 的 复杂 算法 要 
历史 的 尘埃 中 ， 而 那些 较为 简单 且 能 处 理 更 多 样本 的 算法 则 会 流行 开 来 。 举 
量 机 是 一 种 出 色 的 分 类 器 , 但 它 的 一 些 变 体 不 适用 于 规模 非常 大 的 数据 集 。 
样 的 简单 算法 则 能 从 容 应 对 这 种 场景 。 


























么 改良 , 要 么 淹没 在 
个 例子 ， 虽 然 支持 向 
相反 ， 像 逻辑 回归 这 


这 种 在 复杂 度 和 分 布 式 之 间 取 舍 的 问题 只 是 深度 神经 网 络 (DNN ) 被 广泛 使 用 的 原因 之 一 。 























你 既 可 以 用 深度 神经 网 络 创建 非常 复杂 的 模型 ， 也 能 很 容易 地 把 训练 深度 神经 网 络 的 负载 分 布 








( distribute ) 到 多 个 计算 机 中 。 
本 章 会 探究 以 下 内 容 : 


口 大 数据 的 挑战 与 应 用 ; 
口 MapReduce 范式 ; 
口 Hadoop MapReduce; 





12.1 大 数据 
是 什么 让 大 数据 与 众 不 同 ” 大 数据 的 拥 在 大 多 会 说 起 大 数据 的 4V"。 








口 mrjop， 在 亚马逊 AWS 基础 设施 上 运行 MapReduce 程序 的 Python 库 。 


口 体 量 大 (volumn )。 我 们 生成 并 存储 的 数据 规模 在 加 速 增长 , 未 来 这 种 增长 趋势 还 会 继续 。 














现今 硬盘 容量 以 GB 计算 ,过 不 了 儿 年 就 要 用 EB“ 计 算 了 ,而 网 络 否 中 
重要 的 数据 会 被 掩埋 在 浩如烟海 的 无 关 数据 中 ， 信 噪 比 将 极度 恶化 。 

















流量 也 会 如 此 增长 。 








Qa 随 着 大 数据 的 发 展 ， 大 数据 的 特性 出 现 了 不 同 的 3V、4V、5V 甚至 更 多 V 的 说 法 。 本 书 阐述 的 只 是 4V 的 一 种 解 


释 , 第 4 个 V 还 可 以 是 价值 (value )。 一 一 译 者 注 
@ EB 是 艾 字 节 ( exabyte ) 的 缩写 ，1 EB=1024 PB=10242 TB=1024 GB。 一 一 译 者 注 
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口 速度 快 (velocity )。 在 体 量 扩张 的 同时 ,数据 的 处 理 速度 也 在 齐头并进 。 近 些 年 新 出 厂 的 
汽车 中 有 数 百 个 传感器 ， 不 停 地 向 车 载 计 算 机 中 输入 数据 ， 这 些 传感器 提供 的 信息 会 被 
用 来 操纵 汽车 ， 而 分 析 这 些 信息 只 需要 亚 秒 级 的 时 间 。 这 不 仅 需 要 海底 捞 针 ， 从 海量 数 
据 中 找 出 答案 的 能 力 ， 还 要 需要 迅速 找 出 答案 的 能 力 。 某 些 场景 中 ， 我 们 没有 足够 的 磁 

盘 空 间 来 存储 数据 ， 这 意味 着 我 们 还 需要 决定 保留 哪些 数据 以 备 后续 分 析 。 

口 种 类 多 (variety )。 列 定义 明确 的 规整 数据 集 只 是 现今 数据 集中 的 九 牛 一 毛 。 比 如 ， 社 交 
媒体 上 发 布 的 信息 包括 文本 、 图 像 、 提 及 用 户 、 点 赞 、 评 论 、 视 频 、 地 理 信息 等 各 种 字 
段 。 简 单 忽略 与 模型 不 匹配 的 那 部 分 数据 会 导致 这 部 分 信息 丢失 ,但 要 集成 这 部 分 信息 
又 很 难 。 

口 真 伪 莫 辨 (veracity )。 随 着 数据 总 量 的 扩大 , 确定 采集 的 数据 是 否 正 确 ( 包括 数据 是 否 过 

期 、 是 否 为 噪声 、 是 否 包含 离 群 值 ) 或 者 总 体 上 是 否 有 效 等 问题 变 得 十 分 困难 。 因 为 数 

据 集 的 可 靠 性 难以 人 工 验 证 ， 所 以 人 们 很 难 确认 数据 集 的 真 伪 。 同 时 ， 外 部 数据 集 也 更 

多 地 融入 内 部 数据 集中 ， 这 让 数据 中 出 现 了 更 多 真 伪 存 疑 的 问题 。 


与 一 般 的 大 量 数 据 相 区 别 ， 大 数据 主要 特性 可 以 概括 为 这 4V。 处 理 这 种 规模 数据 的 工程 问 
题 通常 难以 解决 , 更 不 用 提 分 析 它 们 了 。 尽管 很 多 能 说 会 道 的 销售 人 员 对 一 些 产 品 处 理 大 数据 的 
能 力 夸 大 其 词 ， 但 是 工程 上 的 挑战 和 大 数据 分 析 的 潜力 是 很 难 和 否认 的 。 


我 们 之 前 使 用 的 算法 把 数据 集中 的 数据 加 载 到 内 存 中 , 然后 再 到 内 存 中 进行 运算 。 因 为 在 内 
存 内 部 数据 中 计算 要 比 在 计算 时 才 加 载 样本 快 得 多 ， 所 以 这 种 方式 给 我 们 提供 了 运算 速度 上 的 
优势 (使 用 计算 机 内 存 比 用 硬盘 计算 速度 快 ) 此 外 ,我 们 还 可 以 多 次 迭代 内 存 中 的 数据 以 改进 
模型 。 


在 处 理 大 数据 时 就 不 能 把 数据 加 载 到 内 存 中 了 。 如 果 数 据 能 加 载 到 你 的 计算 机 内 存 中 , 那么 
你 在 处 理 的 就 不 是 大 数据 。 在 定义 大 数据 问题 的 诸多 方法 中 ， 这 个 问题 不 失 为 一 种 不 错 的 方法 。 


在 查看 你 创建 的 数据 ( 比如 来 自 公 司 内 部 应 用 的 日 志 数 据 ) 时 , 你 可 能 草率 地 把 
人 它们 直接 以 非 结构 化 形式 放 入 一 个 文件 中 ， 之 后 再 应 用 大 数据 的 概念 来 分 析 它 。 










































































最 好 不 要 这 样 做 ! 相反 ， 你 应 该 用 结构 化 的 格式 保存 数据 集 。4V 概括 的 是 大 数 
据 分 析 中 要 解决 的 问题 ， 而 不 是 我 们 的 奋斗 目标 ! 


大 数据 的 应 用 
无 论 是 在 公共 部 门 还 是 在 私营 企业 ， 大 数据 的 应 用 都 很 广泛 。 


人 们 最 经 常 接触 的 基于 大 数据 的 系统 就 是 互联 网 搜索 引擎 ,比如 谷歌 ,要 运营 这 样 一 套 系统 ， 
在 数 十 亿 网 站 中 搜索 的 任务 就 要 在 一 秒 之 内 完成 。 基 本 的 基于 文本 的 搜索 并 不 能 解决 这 样 的 问 
题 ， 就 连 存储 所 有 网 站 的 文本 也 是 一 个 大 问题 。 要 处 理 这 种 应 用 的 查询 ， 就 需要 特别 设计 、 实 现 
新 的 数据 结构 和 数据 挖掘 方法 。 
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12-1 是 大 型 强 子 对 撞 机 (LHC，Large Hadron Collider ) 的 一 部 分 ， 它 借助 大 数据 来 完成 
任务 ， 许 多 其 他 的 科学 实验 也 是 如 此 。 大 型 强 子 对 撞 机 长 度 超过 27 千 米 ， 拥 有 1.5 亿 个 传感器 ， 
可 以 监测 每 秒 数 亿 个 粒子 的 碰撞 。 这 项 实验 每 天 都 会 产生 25 PB 的 数据 ， 而 这 还 是 筛选 后 的 数据 
量 ( 关 不 进行 筛选 ， 那 么 数据 量 可 达 每 年 1.5 亿 PB )。 分 析 体 量 如 此 大 的 数据 虽然 会 革新 我 们 对 
宇宙 的 认识 ， 但 也 成 为 了 工程 与 分 析 领 域 的 巨大 挑战 。 




















图 12-1 





政府 也 在 越 来 越 多 地 使 用 大 数据 追踪 人 口 、 商 业 等 种 种 领域 。 为 了 掌握 数 百 万 人 口 和 数 十 亿 
次 的 交易 〈 比如 商业 交易 或 健康 支出 ) 的 动向 ， 许 多 政府 部 门 会 寻求 大 数据 分 析 的 帮助 。 


交通 管理 也 是 各 国政 府 特别 关注 的 一 个 问题 , 它们 通过 上 百 万 个 传感器 追踪 车 辆 ， 以 确定 哪 
些 道路 最 拥堵 ,并 预测 新 道路 对 交通 状况 的 影响 。 这 些 管理 系统 在 不 久 的 将 来 也 会 接 入 自动 这 驶 
汽车 的 数据 , 从 而 产生 更 多 关于 实时 交通 情况 的 数据 。 利 用 这 些 数据 的 城市 将 能 更 从 容 自如 地 管 
理 交 通 流量 。 

大 型 零售 企业 也 会 用 大 数据 来 改善 消费 者 体验 以 及 降低 成 本 , 这 涉及 预测 消费 者 需求 以 修正 
库存 水 平 、 向 消费 者 妃 加 销售 他 们 可 能 愿意 购买 的 产品 ， 以 及 跟踪 交易 以 探寻 趋势 、 模 式 和 潜在 
的 欺诈 行为 。 如 果 一 家 公司 能 完成 准确 的 自动 化 预测 ， 就 能 以 更 低 的 成 本 达成 更 高 的 销售 额 。 


其 他 大 型 企业 也 在 利用 大 数据 实现 业务 自动 化 和 改进 产品 , 其 中 包括 利用 大 数据 分 析 能 力 来 
预测 行业 未 来 趋势 、 跟 踪 外 部 竞争 者 的 情况 。 大 型 企业 还 会 通过 在 员工 管理 中 应 用 大 数据 来 追踪 
员工 的 动态 ， 以 便 发 现 员工 的 离职 倾向 并 对 其 进行 及 时 干预 。 

信息 安全 部 门 则 会 监控 网 络 流量 , 通过 大 数据 方法 发 现 大 型 网 络 中 的 恶意 软件 感染 行为 , 其 
中 包括 异常 网 络 流量 模式 、 恶 意 软 件 传播 迹象 和 其 他 反常 情况 。 除 此 之 外 , 还 有 高 级 持久 性 威胁 
(APT，Advanced Persistent Threat ) 这 样 严峻 的 安全 问题 。 处 心 积 虑 的 攻击 者 会 把 代码 隐藏 在 大 
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型 网 络 中 ,以 便 长 期 窃取 信息 或 造成 长 期 的 危害 。 要 发 现 高 级 持久 性 威胁 , 通常 需要 对 许多 计算 
机 取证 ， 而 这 一 任务 仅 靠 人 力 难 以 有 效 完成 。 大 数据 方法 则 能 有 效 地 自动 化 分 析 这 些 取 证 图 像 ， 
及 时 发 现 感染 迹象 。 


大 数据 正在 被 用 于 越 来 越 多 的 行业 和 应 用 场景 ， 这 种 势头 仍 将 持续 。 


12.2 MapReduce 


很 多 概念 可 以 在 大 数据 上 执行 数据 挖掘 和 通用 计算 ， 其 中 最 出 名 的 就 是 MapReduce 模型 ， 
它 可 以 用 于 各 种 各 样 的 大 规模 数据 集中 的 通用 计算 。 


MapReduce 起 源 于 谷歌 ， 以 分 布 式 计 算 为 概念 基础 ， 引 入 了 容错 机 制 和 可 伸缩 性 。 关 于 
MapReduce 的 研究 最 早 发 表 于 2004 年 ， 自 此 涌现 出 成 千 上 万 个 使 用 它 的 项 目 、 实 现 与 应 用 。 


虽然 MapReduce 与 很 多 以 往 的 概念 类 似 ， 但 这 不 妨碍 它 成 为 大 数据 分 析 的 中 流 研 柱 。 
一 次 MapReduce 任务 分 为 两 个 主要 步 又 。 


(1) 首先 是 映射 (Map ) 步骤 ， 即 取 一 个 函数 和 一 个 包含 各 项 的 列表 ,然后 把 函数 应 用 到 列表 
中 的 每 一 项 ， 如 图 12-2 所 示 。 换 句 话 说， 我 们 把 各 项 作为 函数 的 输入 ， 然 后 存储 每 次 函数 调用 
的 结果 。 

















图 12-2 
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(CO) 第 二 个 步骤 是 约 简 ( Reduce ), 用 一 个 函数 把 映射 步骤 产生 的 结果 组 合 到 一 起 , 如 图 12-3 
所 示 。 对 于 统计 而 言 , 这 步 很 简单 , 只 需 把 所 有 数值 相 加 即 可 。 此 时 的 约 简 函 数 就 是 一 个 加 ( ada ) 
函数 ， 它 接受 上 一 次 计算 的 和 为 输入 ， 与 新 结果 相 加 。 




















图 12-3 
完成 这 两 个 步骤 后 ， 我 们 还 要 转换 数据 ， 将 其 约 简 为 最 终结 果 。 


MapReduce 任务 会 包含 许多 次 迭代 ,其 中 某 些 只 有 映射 任务 , 某 些 只 有 约 简 任务 ,而 某 些 迭 
代 中 同时 存在 映射 任务 和 约 简 任 务 。 请 看 更 具体 的 例子 。 我 们 将 首先 用 Python 内 置 函 数 ， 然 后 
再 使 用 专门 用 来 执行 MapReduce 任务 的 工具 。 


12.2.1 直观 感受 


MapReduce 主要 分 为 两 个 步骤 : Map 步骤 和 Reduce 步 又。 这 两 个 步骤 基于 函数 式 编 程 的 概 
念 , 把 函数 映射 到 列表 , 然后 再 约 简 结果 。 为 解释 这 一 概念 , 我 们 会 编写 代码 ,迭代 列表 的 列表 ， 
求 出 列表 中 数值 的 总 和 。 


MapReduce 范式 中 还 包含 shuffle 和 combine 两 个 步 台 ， 这 部 分 将 在 后 面 介绍 。 
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首先 , 在 映射 步 又 取 一 个 函数 ,然后 把 该 函数 应 用 到 列表 的 各 个 元 素 上 。 返 回 的 结果 是 一 个 
列表 ， 大 小 与 输入 列表 的 相同 ， 内 容 是 函数 应 用 到 各 个 元 素 的 结果 。 


开启 一 份 新 Jupyter Notebook， 创建 钥 套 数值 列表 的 列表 。 


a= [[1,2,1], [3,2], [4,9,1,0,2]] 

















接 下 来 ,用 sum() 函数 执行 map。 这 步 会 把 sum() 函数 应 用 于 a 中 的 每 个 元 素 。 


sums = map (sum, a) 











虽然 sums 是 一 个 生成 器 ( 被 访问 时 才 会 计算 实际 的 值 )， 但 是 上 面 这 步 几乎 等 同 于 下 面 的 
代码 。 

sums = [] 

for sublist in a: 


results = sum(sublist) 
sums.append (results) 


reduce 步骤 稍微 复杂 一 些 ， 因 为 在 这 一 步 要 把 函数 应 用 于 返回 列表 中 的 每 个 元 素 以 及 某 个 
初始 值 。 我 们 要 先 设置 初 始 值 ， 然 后 再 把 具体 函数 应 用 到 初始 值 和 首 个 值 ， 接 下 来 再 将 函数 应 用 
于 所 得 结果 和 下 一 个 值 ， 以 此 类 推 。 


我 们 创建 一 个 以 两 个 数值 为 参数 的 函数 ， 它 会 把 两 个 数值 相 加 。 


def add(a, b): 
return a+b 



























































之 后; 执行 约 简 。 reduce 的 函数 签名 是 reduce (function, sequence, initial), 其 


中 的 function 参数 就 是 每 步 应 用 到 序列 的 函数 。 在 第 一 步 中 ，initial 的 值 会 被 用 作 首 个 值 ， 
而 不 是 列表 中 的 第 一 个 元 素 。 


from functools import reduce 
print (reduce (add, sums, 0)) 


结果 是 25， 是 sums 列表 中 的 各 个 数值 之 和 ， 也 是 原始 列表 中 的 所 有 数值 元 素 之 和 。 
前 面 这 段 代码 的 功能 类 似 于 下 面 这 样 。 


和 于 二 光 
current_result = initial 
for element in sums: 
current_result = add(current_result, element) 

































































在 这 个 简单 的 例子 中 ， 如 果 没 有 使 用 MapReduce 范式 ， 代 码 就 会 得 到 极 大 的 简化 ,但 是 ， 
其 真正 的 好 处 来 源 于 分 布 式 计算 。 例 如 ， 如 果 我 们 有 100 万 个 子 列表 ， A i 100 
万 个 元 素 ， 我 们 就 能 把 任务 分 布 到 许多 计算 机 中 计算 。 


为 此 ， 我 们 要 分 割 数 据 ， 把 map 步骤 分 发 出 去 。 我 们 把 列表 中 的 每 个 元 素 和 函数 的 描述 一 
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起 发 送 到 其 他 计算 机 ， 这 台 计 算 机 就 会 向 主 控 (master ) 计算 机 返回 结果 。 


主 控 会 把 结果 发 送 给 其 他 计算 机 以 计算 reduce 步 又。 我 们 举 的 例子 是 100 万 个 子 列表 , 我 
们 就 要 把 100 万 个 任务 发 送 到 不 同 的 计算 机 中 ( 完成 第 一 个 任务 后 ,可 能 会 重用 相同 的 计算 机 )。 
返回 的 结果 会 是 一 个 包含 100 万 个 数值 的 列表 ， 之 后 再 对 其 求 和 。 


尽管 原始 数据 中 包含 1 万 亿 个 数值 ， 但 并 未 要 求 一 台 计 算 机 存储 超过 100 万 个 值 ， 这 就 
MapReduce 的 用 意 所 在 。 


词 频 统计 示例 


现实 中 任何 一 个 MapReduce 实现 都 会 涉及 map 和 reduce 以 外 的 步骤 。 因 为 这 两 个 步骤 都 
是 用 键 调用 的 ， 所 以 分 离 数 据 并 跟踪 值 是 可 行 的 。 


映射 函数 接受 键 值 对 ， 然 后 返回 键 / 值 对 的 列表 。 输 入 与 输出 的 键 并 不 需要 互相 
例如 一 个 统计 词 频 的 MapReduce 程序 ， 输入 键 是 样本 文档 的 ID 值 ， 输 出 键 则 是 具体 单词 。 
输入 值 是 文档 中 的 文本 ,而 输出 值 则 是 各 个 单词 的 频率 。 我们 以 空格 为 标识 分 割 文档 , 取出 其 中 
的 单词 ， 然 后 对 每 个 词 和 每 个 计数 对 使 用 yield 语句 ， 统 计 词 频 。 在 MapReduce 意义 下 ， 这 里 
的 单词 是 键 ， 计 数 是 值 。 
from collections import defaultdict 
def map_word_ count (document_id, document): 
counts = defaultdict (int) 
for word in document.split(): 
counts[word] += 1 


for word in counts: 
yield (word, counts [word]) 























江 
































要 是 数据 集 特 别 大 呢 ? 你 可 以 在 遇 到 新 单词 时 用 yield (word，1) 语 句 ， 然 后 
将 其 在 混 洗 ( shuffle ) 步骤 中 组 合 ， 而 不 是 在 映射 步骤 中 对 其 计数 。 具 体 在 何 

人 处 使 用 这 条 语句 ,取决 于 你 的 数据 集 大 小 、 每 个 文档 大 小 、 网 络 容量 等 一 系列 因 
素 。 大 数据 是 一 个 工程 上 的 大 问题 , 为 了 发 挥 系 统 的 全 部 性 能 ,你 需要 合理 地 对 
算法 中 的 数据 流 建 模 。 


我 们 可 以 以 单词 为 键 执行 混 洗 步 又 ， 按 键 给 值 分 组 。 


def shuffle words (results): 
records = defaultdict (list) 
for results in results_generators: 
for word, count in results: 
records [word] .append (count) 
for word in records: 
Yield (word, records [word] ) 
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最 后 一 步 是 约 简 ,该 步 接受 键 值 对 ( 本 例 中 的 值 一 直 是 列表 )， 产 生 键 值 对 形式 的 结果 。 本 
例 中 的 键 是 单词 ， 输 入 列表 是 混 洗 步 又 生成 的 计数 列表 ， 和 输出 值 则 是 词 频 总 和 。 


def reduce_counts (word, list_of_counts): 
return (word, sum(list_of_counts)) 


我 们 用 scikit-learn 中 提供 的 20 个 新 闻 组 数据 集 看 一 下 实际 效果 。 这 个 数据 集 虽然 算 不 
上 大 数据 ， 但 能 为 我 们 展示 概念 的 实际 应 用 。 


from sklearn.datasets import fetch 20newsgroups 
dataset = fetch 20newsgroups (subset='train') 
documents = dataset .data 


然后 ， 应 用 映射 步骤 。 这 里 用 snumerate () 函数 自动 生成 文档 ID。 虽然 在 本 例 的 应 用 场景 
中 文档 ID 没有 实际 作用 ， 但 在 它 其 他 应 用 场景 中 很 重要 。 

map_results = map (map_word_ count, enumerate (documents)) 

实际 上 这 步 的 结果 只 是 一 个 生成 问 ， 不 会 产生 实际 的 计数 。 也 就 是 说 ， 它 是 (word, count) 对 
的 生成 器 。 

下 一 步 ， 执 行 混 洗 步骤 为 词 频 排序 。 

Shuffle_results = shuffle words (map_results) 

本 质 上 讲 ， 虽然 这 是 一 个 MapReduce 任务 ,但 它 只 运行 在 单线 程 中 。 这 意味 着 我 们 没有 享 


受到 MapReduce 的 数据 格式 带 来 的 好 处 .下 一 节 我 们 会 使 用 Hadoop , 它 是 一 个 实现 了 MapReduce 
的 开源 系统 ， 从 中 我 们 可 以 感受 到 MapReduce 范式 的 魅力 。 
















































































12.2.2 Hadoop MapReduce 














Hadoop 是 Apache 的 一 系列 开源 工具 合集 , 其 中 就 包含 了 MapReduce 的 实现 。 它 是 大 多 数 场 
景 下 MapReduce 实现 的 事实 标准 。 该 项 目 由 Apache 软件 基金 会 维护 〈 该 基金 会 也 负责 与 该 组 织 





同名 的 Web 服务 器 )。 


Hadoop 的 生态 相当 复杂 , 包含 数量 繁多 的 工具 ,我 们 用 到 的 主要 组 件 是 Hadoop MapReduce。 
Hadoop 中 还 有 其 他 处 理 大 数据 的 工具 ， 包 括 下 面 这 些 


口 Hadoop 分 布 式 文件 系统 (HDFS，Hadoop distributed file system )， 能 把 文件 存储 在 多 台 
计算 机 的 文件 系统 中 ， 从 而 在 提供 充足 带宽 的 同时 ， 提 供 稳健 的 存储 能 力 ， 避 人 免 硬件 因 
损害 导致 数据 丢失 。 

D YARN， 调 度 应 用 、 管 理 计算 机 集群 的 方法 。 

口 Pig, 用 于 MapReduce 的 高 级 编程 语言 。Hadoop MapReduce 是 用 Java 实现 的 , Pig 是 此 Java 
实现 的 进一步 抽象 ， 它 让 用 包括 Python 在 内 的 其 他 语言 编写 MapReduce 程序 成 为 可 能 。 
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口 Hive， 管 理 数据 仓库 、 执 行 查 询 。 
口 HBase,， 一 种 谷歌 BigTable" 的 实现 ， 是 一 个 分 布 式 数据 库 。 


这 些 工 具 解 决 了 包括 数据 分 析 在 内 的 大 数据 实验 中 可 能 过 到 的 各 种 不 同 问 题 。 


虽然 也 有 许多 MapReduce 实现 不 是 基于 Hadoop 的 ， 但 是 它们 殊途同归 ， 目 标 一 致 。 此 外 ， 
许多 云 服 务 提供 商 有 基于 MapReduce 的 系统 。 

















12.3 应 用 MapReduce 


在 本 例 的 应 用 场景 中 ， 我 们 会 根据 作者 对 不 同 单词 的 用 法 预测 作者 性 别 。 我 们 将 通过 在 
MapReduce 中 训练 朴素 贝 叶 期 方法 来 解决 这 一 问题 。 虽 然 我 们 可 以 用 映射 步 又 来 实现 最 终 的 模 
型 ， 也 就 是 为 列表 中 的 各 份 文档 执行 预测 ， 但 是 最 终 模型 不 需要 Mapreduce。 这 是 MapReduce 
中 数据 挖掘 的 常规 映射 操作 ， 约 简 步 又 则 只 起 组 织 越 策 列 表 的 作用 ， 以 便 我 们 回 湖 原 始 文档 。 


我 们 会 利用 亚马逊 基础 设施 的 计算 资源 来 运行 这 个 应 用 。 












































获取 数据 

我 们 要 用 的 数据 是 一 系列 已 经 标注 好 的 博客 文章 ,其 标注 不 仅 包 括 年 龄 、 性 别 、 行业 (工作)， 
有 趣 的 是 还 包含 了 星座 。 这 些 数据 是 2004 年 8 月 从 Blogger 网 站 上 采集 的 ， 其 中 有 60 万 余 篇 博 
客 文章 ， 共 有 1.4 亿 个 单词 。 在 做 了 一 些 验 证 工作 后 ,我 们 (虽然 永远 也 无 法 真正 确定 ) 发 现 每 
个 博客 都 很 可 能 只 有 一 个 作者 。 博 客 文章 还 附带 了 发 布 时 间 ， 这 丰富 了 数据 集 的 内 容 。 

请 访问 http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm， 点 击 Download Corpus 下 载 这 份 数据 。 
然后 将 其 解压 到 你 计算 机 上 的 一 个 目录 中 。 


这 个 数据 集中 每 个 博客 都 是 一 个 单独 的 文件 , 文件 名 指出 了 类 别 。 例如 下 面 就 是 其 中 的 一 个 
文件 名 。 


1005545 .male.25.Engineering.Sagittarius.xml 
文件 名 以 句点 分 隔 了 如 下 各 个 字段 。 


口 博客 ID。 标 识 博 客 的 简单 ID 值 。 
口 性 别 。 所 有 博客 要 么 标注 为 male ( 男性 ) 要 么 标注 为 ftmale (女性 ) ( 这 份 数据 集中 没有 
其 他 选项 )。 




































































QD BigTable 是 谷歌 为 管理 大 规模 结构 化 数据 而 设计 的 分 布 式 存储 系统 ， 是 谷歌 的 大 数据 三 芍 马 车 之 一 ( 另外 两 个 是 
GFS 和 MapReduce )， 它 不 是 传统 的 关系 型 数据 库 。 原 理 详 述 见 谷歌 论文 Bigtable: 4 Distributed Storage System for 
Structured Data, 译 者 注 
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口 年 龄 。 虽然 给 出 了 确切 的 年 龄 , 但 也 有 意 按 年 龄 段 做 了 划分 , 因此 只 会 出 现 13~17、23~27 
以 及 33~48 这 几 个 年 龄 段 (包含 两 端 ) 中 的 年 龄 。 这 种 划分 是 为 了 把 博客 作者 的 年 龄 归 
到 有 间隔 的 不 同 的 年 龄 段 中 , 因为 要 把 18 岁 的 作者 和 19 岁 的 作者 区 分 开 太 难 , 而 且 年 龄 
这 种 信息 可 能 会 过 时 ， 比 如 标注 为 18 岁 的 作者 其 实 已 经 19 岁 。 

口 行业 。40 多 种 行业 中 的 某 一 种 ， 包 括 science (科学 )、engineering (工程 )、arts ( 艺术 ) 

和 real estate( 不 动产 )。 如 果 博 客 作 者 所 在 的 行业 未 知 ， 则 会 被 标 为 indUnk。 

口 星座 。12 星座 中 的 一 种 。 


上 面 所 有 的 值 都 是 博客 作者 自己 提供 的 ， 这 意味 着 其 中 的 标注 会 有 一 些 错误 或 不 一 致 之 处 。 


不 过 ,因为 提供 了 可 以 不 填写 的 选项 ,让 用 户 可 以 免 于 透露 隐私 ， 所 以 我 们 可 以 假定 这 份 数据 大 
致 上 是 可 靠 的 。 

































































每 个 文件 都 是 伪 XML 格式 ， 其 中 包含 一 个 <Blog> 标 签 和 其 后 的 一 串 <post> 标 签 ， 而 每 个 
<post> 标 签 前 都 有 一 个 <aate> 标 签 。 虽 然 我 们 可 以 将 其 按 XML 解析 ， 但 因为 这 个 文件 并 不 是 
真正 的 、 格 式 规整 的 XML， 还 包含 一 些 错误 ( 多 数 是 编码 问题 导致 的 )， 所 以 按 行 来 处 理 它 更 为 
简单 。 我 们 可 以 用 一 个 循环 迭代 文件 中 的 各 行 ， 以 读 取 其 中 的 博客 文章 。 


我 们 设置 一 个 文件 名 来 测试 实际 效果 。 


import os 
filename = os.path.join(os.path.expanduser ("~"), "Data", "blogs", 
"1005545.male.25.Engineering.Sagittarius.xml") 


首先 创建 一 个 保存 博客 文章 的 列表 。 


all_posts = [] 


然后 打开 文件 并 读 取 。 


with open(filename) as inf: 
post_start = False 
Dost es |L 
fo VIAe "Ty TEs 























line = line.strip() 

if ine- = "<posts™: 

发 现 新 博客 文章 

post_start = True 

elif line == "</post>": 

当前 博客 文章 结束 ， 将 其 添加 到 博客 文章 列表 中 然后 开始 处 理 一 份 新 文章 
post_start = False 
all_posts.append("n".join(post)) 
post = [] 

elif post_start: 
# 把 当前 博客 文章 中 的 行 添加 到 文本 中 
post.append (line) 


如 果 没 有 处 于 当前 的 博客 文章 中 ， 就 忽略 该 行 。 
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接 下 来 ， 抓 取 每 篇 文章 的 文本 。 


print (all_posts[0]) 


我 们 还 可 以 看 看 这 个 博客 作者 产 出 了 多 少 博客 文章 。 


print (len(all_posts)) 





12.4 朴素 贝 叶 斯 预测 


现在 ， 我 们 要 用 mrjob 来 实现 朴素 贝 叶 斯 算法 ， 处 理 我 们 的 数据 集 。 从 技术 上 讲 ， 本 例 是 
大 多 数 朴素 贝 叶 斯 实现 的 简化 版 本 ， 其 中 不 包含 你 可 能 期 待 的 那些 特征 ， 比 如 平滑 小 数值 。 


























mrjob 包 


mrjob 包 可 以 用 来 创建 可 以 在 亚马逊 基础 设施 上 轻松 运行 的 MapReduce 任 务 。 虽 然 这 个 名 字 
像 是 《 奇 先 生 妙 小 姐 》" 系 列 儿 童 读 物 的 狗 尾 续 貂 之 作 ， 但 其 实 它 是 Map Reduce Job 的 缩写 。 









































用 这 行 命令 就 可 以 安装 mrjob:pip install mrjob。 作 者 还 需要 单独 用 conda 
install -c conda-forge filechunkio 安装 filechunkio 包 ， 人 但是， 是否 
需要 这 一 步 取 决 于 你 的 系统 安装 。 你 还 可 以 查看 可 以 安装 mrjob 的 其 他 Anaconda 


通道 : anaconda search -t conda mrjob。 


mrjob 本 质 上 提供 了 大 多 数 MapReduce 任务 所 需 的 标准 功能 。 它 有 一 个 最 令 人 惊艳 的 特性 ， 
那 就 是 你 可 以 编写 一 次 代码 ， 在 本 地 计算 机 上 测试 它 〈 而 无 须 搭建 像 Hadoop 这 样 重量 级 的 基础 
设施 )， 然 后 将 其 可 以 推送 到 亚马逊 的 EMR 服务 或 其 他 Hadoop 服务 器 上 运行 。 

虽然 它 不 能 巧妙 地 大 事 化 小 , 但 大 大 简化 了 代码 的 测试 一 一 任何 本 地 测试 都 只 需 数据 集 的 一 
部 分 ， 而 不 是 完整 大 小 的 数据 集 。 相 反 , mrjob 为 你 提供 了 一 个 框架 ,这 样 你 就 能 在 小 问题 上 进 
行 测试 ， 从 而 更 有 信心 把 解决 方案 拓展 到 更 大 的 问题 中 ， 分 布 到 不 同 的 系统 中 。 






























































12.5 提取 博客 文章 


我 们 首先 要 创建 的 MapReduce 程序 能 从 各 个 博客 文件 中 提取 出 博客 文章 ， 然 后 将 其 存储 到 
不 同 条 目 中 。 因 为 我 们 感 兴趣 的 是 博客 作者 的 性 别 ,， 所 以 还 要 从 中 提取 性 别 信息 ， 并 与 博客 文章 
存储 在 一 起 。 






































QD《 奇 先生 妙 小 姐 》( Mr: Men and Little Miss ) 是 英国 儿童 文学 作家 罗 杰 : 哈 格 里 夫 斯 (Roger Hargreaves，1935 一 1988 ) 
的 系列 作品 ， 作 品 中 每 个 角色 的 名 字 都 代表 其 性 格 特征 ， 并 以 先生 ( Mr. ) 和 小 姐 ( Little Miss ) 来 称呼 。 比 如 暴 
躁 先生 (Mr. Grumpy ) 、 霸 道 小 姐 ( Little Miss Bossy ) 等 。 一 一 译 者 注 
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因为 我 们 不 能 在 Jupyter Notebook 中 进行 操作 ， 所 以 要 打开 一 个 用 于 开发 的 
Python IDE。 如 果 你 没有 Python IDE， 那 么 也 可 以 用 文本 编辑 器 。 虽然 PyCharm 
不 但 学 习 曲 线 陡峭 , 而 且 对 于 本 章 代码 而 言 ， 有 些 大 材 小 用 了 ，, 但 作者 还 是 推荐 
使 用 它 。 


作者 建议 你 使 用 一 个 最 起 码 有 代码 高 亮 和 基本 变量 名 自动 补 全 功能 ( 能 帮助 你 发 现代 码 中 的 
笔 误 ) 的 IDE。 








如 果 你 找 不 到 顺手 的 IDE， 可 以 在 Jupyter Notebook 中 编写 代码 ， 然 后 点 击 
《人 FilelDownload As|Python。 把 文件 保存 到 目录 中 ， 然 后 按 第 11 章 所 概括 的 方法 


运行 。 





为 此 , 我 们 不 仅 要 获取 环境 变量 ， 还 需要 正则 表达 式 来 分 割 单词 ， 这 就 需要 导入 os 和 re 库 。 


import os 
import re 





然后 ， 导 入 MRJob 类 ， 我 们 将 从 MapReduce 任务 继承 它 。 


from mrjob.job import MRJOb 


随后 , 创建 一 个 MRJob 的 子 类 。 我们 用 与 之 前 类 似 的 循环 从 文件 中 提取 博客 文章 。 接 下 来 ， 
定义 映射 函数 处 理 文 件 中 的 每 一 行 , 这 意味 着 我 们 要 在 该 函数 外 跟踪 不 同 的 文章 。 因 此 , 我 们 调 
用 post_start 并 声明 类 别 变 量 而 不 是 函数 中 的 变量 。 然 后 ， 定 义 映射 函数 本 身 。 它 接受 文件 
中 的 一 行 作为 输入 ， 然 后 用 yiela 返回 博客 文章 。 在 同一 次 任务 中 的 文件 里 ， 行 的 顺序 是 有 保 
证 的 。 这 让 我 们 可 以 用 上 面 的 类 别 变量 记录 当前 文章 的 数据 。 

class ExtractPosts (MRJob): 


post_start = False 
post = [] 
































def mapper (self, key, line): 

filename = os.environ["map_input_file"] 

# 分 割 文件 名 以 获取 性 别 ( 第 二 项 ) 

gender = filename.split(".")[1] 

line = line.strip() 

1 TTNS -aa VDOBtS 
self.post_start = True 

SLif Tinie- "</PDOStS": 
self.post_start = False 
yield gender, repr("\n".join(self.post)) 
self.post = [] 

elif self.post_start: 
self.post.append (line) 


我 们 像 之 前 一 样 使 用 yiela 语句 ， 而 不 是 直接 把 博客 文章 保存 在 一 个 列表 中 。 这 让 mrjop 
可 以 跟踪 函数 的 输出 。 我 们 用 yiela 语句 返回 性 别 和 博客 文章 ,以 记录 每 篇 博客 文章 中 的 性 别 。 
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函数 的 其 余部 分 与 前 面 的 循环 相同 。 


最 后 ， 在 函数 和 类 定义 之 外 ， 设 置 脚本 ， 使 其 在 被 命令 行 调用 时 运行 MapReduce 任务 。 





江上 marme i 
ExtractPosts.run!() 





现在 就 可 以 用 下 面 这 条 shel1 命令 运行 这 个 MapReduce 任务 了 。 


$ python extract posts.py <your data folder>/blogs/51* 
--output-dir=<your_ data folder>/blogposts --no-output 


注意 此 处 无 须 输 入 上 方 行 中 的 S$， 这 个 字符 只 是 用 来 表示 命令 要 在 命令 行 中 而 不 


是 Jupyter Notebook 中 运行 。 


a 








第 一 个 参数 是 <your_data_folder>/blogs/51* (要 记得 把 <your_data_folder> 换 成 


你 的 数据 文件 夹 的 完整 路 径 )， 它 会 在 数据 中 抽样 ( 51 开头 的 文件 总 共有 11 个 )。 然 后 ,设置 一 
个 新 文件 夹 作 为 输出 目录 , 将 新 文件 夹 放 人 数据 文件 夹 中 , 并 指定 不 要 输出 存储 数据 。 如 果 不 设 
置 最 后 这 个 选项 ,那么 运行 时 输出 数据 就 会 被 展示 在 命令 行 中 , 这 不 仅 无 用 , 还 会 显著 拖 慢 计算 








机 的 运行 速度 。 











运行 这 段 脚本 ,我 们 很 快 就 能 提取 出 每 一 篇 博客 文章 , 并 将 其 存储 到 输出 文件 夹 中 。 因 为 我 
们 只 是 在 本 地 计算 机 单线 程 运行 该 脚本 , 所 以 并 没有 感受 到 速度 的 提升 , 不 过 我 们 确认 了 代码 可 





以 正常 运行 。 





现在 我 们 可 以 看 一 下 输出 目录 中 的 结果 。 该 目录 中 新 增 了 一 些 文件 , 每 个 文件 中 按 行 区 














各 篇 博客 文章 ， 而 每 行 的 前 面 是 博客 作者 的 性 别 。 
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分 了 





既然 我 们 已 经 提取 好 了 博客 文章 , 就 可 以 在 其 中 训练 朴素 贝 叶 斯 模型 了 。 直观 上 该 任务 就 是 
记录 特定 性 别 作者 使 用 某 个 单词 的 概率 ,并 在 模型 中 记录 这 些 值 。 我 们 通过 把 这 些 概率 相 乘 ， 找 


























出 最 可 能 的 性 别 ， 来 为 新 样本 的 分 类 。 


本 节 代 码 的 目的 是 把 语料库 中 的 各 个 单词 输出 到 文件 中 ， 并 附带 上 不 同性 别 使 用 该 词 的 频 





率 。 输 出 文件 大 概 会 是 这 样 。 


"railleurs" {"female": 0.003205128205128205} 

"air" {"female": 0.003205128205128205} 

"an" {"male": 0.0030581039755351682, "female": 0.004273504273504274} 
"rangoisse" {"female": 0.003205128205128205} 

"rapprendra" {"male": 0.0013047113868622459, "female": 0.0014172668603481887} 
"'attendent" {"female": 0.00641025641025641} 

"autistic" {"male": 0.002150537634408602} 
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"auto" {"female": 0.003205128205128205} 
"ravais" {"female": 0.00641025641025641} 
"avait" {"female": 0.004273504273504274} 
"'behind" {"male": 0.0024390243902439024} 
"'bout" {"female": 0.002034152292059272} 





























前 一 个 值 是 单词 ， 后 一 个 值 是 能 把 性 别 映射 到 该 性 别 使 用 该 单词 的 频率 上 的 字典 。 














在 你 的 Python IDE 或 文本 编辑 器 中 打开 一 个 新 文件 。 我 们 不 仅 仍 需要 os 库 和 re 库 ， 还 需 
要 NumPy 和 mrjob 中 的 MRJob。 此 外 ， 我 们 还 需要 用 来 给 字典 排序 的 itemgetter。 














import os 

import re 

import numpy as np 

from mrjob.job import MRJOb 
from operator import itemgetter 





我 们 还 会 用 到 MRStep, 它 代表 MapReduce 任务 中 的 一 步 。 我 们 前 面 的 任务 只 有 一 步 , 它 先 
被 定义 为 一 个 映射 函数 ,后 被 定义 为 一 个 约 简 函 数 。 这 里 的 任务 则 有 多 个 步骤 ， 先 要 映射 、 之 后 
约 简 然后 再 次 映射 并 约 简 。 直观 上 它 与 前 面 章 节 中 的 流水 线 差不多 , 其 下 一 步 的 输入 是 上 一 步 的 








输出 。 


from mrjob.step import MRStep 





然后 , 创建 搜索 单词 的 正则 表达 式 并 对 其 进行 编译 ， 从 而 发 现 单词 的 边界 。 尽 管 这 种 类 型 的 
正则 表达 式 比 前 面 几 章 中 做 简单 分 割 的 正则 表达 式 强 大 得 多 , 但 如 果 你 寻求 一 种 更 为 精准 的 分 词 























器 ， 作 者 建议 你 参考 第 6 章 使 用 NLIK 或 Spacey。 


word_search re = re.compile(r"[w']+") 








我 们 新 定义 一 个 类 来 执行 训练 。 本 节 在 这 里 先 提供 整 段 类 定义 的 代码 ,然后 有 








了 回顾 其 中 的 各 








立 | » Ba i 
个 部 分 ， 论 述 其 用 意 。 
class NaiveBayesTrainer (MRJob) : 


def steps (self): 
return [ 
MRStep (mapper=self.extract_words_mapping, 
reducer=self.reducer_count_words), 
MRStep (reducer=self.compare_ words_reducer), 


] 


def extract_ words_ mapping(self, key, value): 
tokens value.split() 
gender = eval (tokens[0]) 
blog_post = eval(" ".join(tokens[1:])) 
all_words word_search re.findall (blog_post) 
all_words = [word.lower() for word in all words] 
for word in all words: 


# 单词 出 现 的 概率 


1 外 
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yield (gender, word), 1. / len(all words) 


def reducer_count words(self, key, counts): 
s = sum(counts) 
gender, word = key #.split(":") 
yield word, (gender, s) 


def compare words_reducer (self, word, values): 
per_gender = {} 
for value in values: 
gender, s = value 
per_genderl[gender] = S 
yield word, per_gender 


def ratio _ mapper (self, word, value): 


counts = dict (value) 
sum_of_counts = float (np.mean(counts.values())) 
maximum_ score = max(counts.items(), key=itemgetter(1)) 


current_ratio = maximum score[1] / sum of_counts 
yield None, (word, sum of_counts, value) 


def sorter_reducer (self, key, values): 

ranked_list = sorted(values, key=itemgetter(1), reverse=True) 
n_ printed = 0 
for word, sum of_counts, scores in ranked list: 

if n printed < 20: 

print ((n printed + 1), word, scores) 

n_printed += 1 

yield word, dict(scores) 


我 们 来 一 步 一 步 地 深入 代码 的 各 个 部 分 。 


class NaiveBayesTrainer (MRJob) : 
以 上 代码 用 于 定义 MapReduce 任务 中 的 步骤 ， 步 又 有 二 。 


第 1 步 ， 提 取 单 词 出 现 的 概率 ; 第 2 步 ， 比 较 两 个 性 别 ， 输 出 其 在 各 个 输出 文件 中 的 概率 。 
在 每 个 MRStep 中 ,定义 映射 函数 和 约 简 函数 ,它们 是 NaiveBayesTraine 类 中 的 方法 ( 接 下 
来 会 编写 函数 本 身 )。 


def steps (self): 
return [ 
MRStep (mapper=self.extract_ words_mapping, 
reducer=self.reducer_count_words), 
MRStep (reducer=self.compare_ words_reducer), 





yy 








] 


首先 来 看 第 1 步 中 的 映射 函数 。 这 个 函数 的 目的 是 以 各 篇 博客 文章 作为 输入 ,取出 博客 文章 
中 的 单词 , 然后 标记 单词 出 现 的 情况 。 因 为 我 们 要 计算 词 频 , 所 以 返回 了 1 / len(all_words)， 
以 便于 之 后 对 这 些 词 频 求 和 。 这 步 的 计算 并 非 绝 对 正确 ,因为 我 们 还 需要 按 文档 数量 对 其 做 归 一 
化 处 理 。 不 过 因为 这 个 数据 集中 的 类 别 大 小 是 相同 的 ， 所 以 为 方便 起 见 , 我 们 可 以 忽略 这 步 对 最 
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终结 果 的 微小 影响 。 
然后 ， 输 出 博客 文章 作者 的 性 别 。 之 后 我 们 会 用 到 它 。 
def extract_words_mapping(self，key，value) : 


tokens = value.sSpP1it() 
gender = eval (tokens [0]) 





blog_post = eval(" ".join(tokens[1:])) 
all_words = word_search re.findall (blog_post) 
all_ words = [word.lower() for word in all_ words] 


for word in all words: 

# 单词 出 现 的 概率 

yield (gender, word), 1. / len(all words) 

虽然 上 面 的 示例 代码 用 eval 简化 了 文件 中 的 博客 文章 的 解析 过 程 , 但 作者 并 不 

推荐 这 样 做 。 相 反 ， 你 应 该 用 JSON 这 样 的 格式 妥善 存储 或 解析 文件 中 的 数据 。 

外 因为 具有 数据 集 访 问 权限 的 恶意 用 户 可 能 会 在 这 些 tokens 中 插入 代码 ,并 在 你 
的 服务 器 上 运行 这 些 代码 。 
在 第 1 步 的 约 简 函 数 中 ， 我 们 对 各 对 性 别 与 单词 的 频率 求 和 ， 还 把 键 从 组 合 形式 改 为 单词 ， 

而 不 是 组 合 , 这 让 我 们 可 以 在 最 终 训 练 好 模型 中 用 单词 进行 搜索 ( 尽管 如 此 ,我 们 仍 要 输出 性 别 
以 供 后 续 使 用 )。 


def reducer_count words (self, key, counts): 
s = Sum(counts) 
gender, word = key #.split(":") 
yield word, (gender, s) 


因为 最 后 这 步 不 需要 映射 函数 ， 所 以 我 们 也 没有 添加 这 个 参数 。 数 据 会 直接 以 恒 等 映 射 的 
形式 传递 。 不 过 这 步 的 约 简 函数 会 把 给 定单 词 的 两 种 性 别 的 词 频 组 合 起 来 , 然后 输出 单词 和 词 频 
字典 


一 No 


这 步 给 出 了 实现 朴素 贝 叶 斯 所 需 的 信息 。 


def compare_ words_reducer (self, word, values): 
per_gender = {} 
for value in values: 
gender, s = value 
per_genderlgender] = S 
yield word, per_gender 


最 后 ， 设 置 代码 ,使 其 在 作为 脚本 运行 时 调用 模型 。 我 们 需要 在 文件 中 添加 这 两 行 。 



































if name = "Ma 
NaiveBayesTrainer.runl() 


之 后 我 们 就 可 以 运行 这 个 脚本 。 脚 本 的 输入 是 之 前 提取 的 博客 文章 脚本 的 输出 ( 如 果 你 愿意 ， 
也 可 以 把 它 实现 为 同一 MapReduce 任务 中 的 不 同步 又 )。 
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$ python nb train.py <your data folder>/blogposts/--output-dir=<your data folder>/ 
models/ --no-output 


输出 目录 是 存储 MapReduce 任务 输出 文件 的 文件 夹 ， 其 中 是 运行 朴素 贝 叶 斯 分 类 器 所 需 的 
概率 。 
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下 面 就 能 用 这 些 概率 实际 运行 朴素 贝 叶 斯 分 类 器 了 。 虽 然 处理 过 程 本 身 可 以 交 由 mrjob 包 
运行 ， 以 便 伸缩 计算 规模 ， 但 这 里 我 们 会 在 一 个 Jupyter Notebook 中 运行 它 。 


首先 ， 检 视 上 一 次 MapReduce 任务 中 指定 的 models 文件 夹 。 如 果 输 出 文件 不 止 一 个 ， 则 
用 下 面 的 命令 行 工 具 把 mogels 目录 下 的 文件 以 附加 到 尾部 的 形式 合并 到 一 起 。 


cat * > model .txt 
如 此 一 来 ， 你 还 要 在 下 面 的 代码 中 设置 模型 的 文件 名 为 model .txt。 
回 到 笔记 本 中 。 首 先 ， 导 入 脚本 所 需 的 依赖 。 


import os 

import re 

import numpy as np 

from collections import defaultdict 
from operator import itemgetter 


我 们 还 需要 重新 定义 搜索 单词 的 正则 表达 式 。 如 果 是 在 现实 中 的 应 用 里 , 作者 建议 把 这 个 功 
能 实现 成 中 心 化 的 形式 。 在 训练 和 测试 时 ， 提 取 单 词 的 方法 要 保持 一 致 。 


word_search re = re.compile(r"[w']+") 


接 下 来 , 创建 从 给 定 文 件 名 加 载 模 型 的 函数 。 模 型 的 参数 是 般 套 字典 , 其 中 第 一 个 键 是 单词 ， 
而 作为 值 的 字典 则 映射 性 别 与 概率 。 我 们 在 这 里 使 用 aefaultaict, 以 在 键 不 存在 时 返回 零 值 。 


def load model (model_filename): 
model = defaultdict (lambda: defaultdict (float)) 
with openl(model_filename) as inf: 
for line in inf: 
word, values = line.split (maxsplit=1) 
word = eval (word) 
values = eval (values) 
model[word] = values 
return model 


行 会 被 以 空格 分 成 两 个 部 分 。 第 一 个 部 分 是 单词 本 身 , 第 二 个 部 分 则 是 概率 字典 。 对 这 两 个 
部 分 应 用 eval () 函数 以 获取 实际 值 。 这 些 值 是 之 前 代码 中 用 repr 存储 的 。 


然后 ， 加 载 实际 的 模型 。 你 可 能 需要 修改 模型 的 文件 名， 模型 位 于 上 次 MapReduce 任务 的 1 
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输出 目录 下 。 


model_filename = os.path.join(os.pbath.expanduser("~")，"modqel1s"，"patrt-00000") 
model = load model (model_filename) 


举 个 例子 ， 我 们 可 以 查看 男性 和 女性 使 用 单词 i ( MapReduce 任务 把 所 有 的 单词 转换 成 了 小 
写 形 式 ) 的 差异 。 


model["i"]["male"], model["i"]["female"] 


接 下 来 ,创建 一 个 函数 ， 用 模型 来 预测 结果 。 本 例 没 有 实现 scikit-learn 的 接口 ， 而 只 
创建 了 一 个 函数 。 这 个 函数 以 模型 和 文档 为 参数 ， 返 回 最 可 能 的 性 别 。 


def nb predict (model, document): 

probabilities = defaultdict (lambda : 1) 

words = word_ search re.findall (document) 

for word in set (words): 
probabilities["male"] += np.log (model[word] .get ("male", le-15)) 
probabilities["female"] += np.log(model [word] .get ("female", le-15)) 
most_likely_genders = sorted(probabilities.items(), 

key=itemgetter(1), reverse=True) 








return most_likely_genders[0]1[0] 


值得 注意 的 是 我 们 用 np . 1og 计算 概率 。 朴 素 贝 叶 斯 模型 中 的 概率 值 通常 相当 小 。 在 计算 许 
多 统计 数值 时 需要 把 许多 小 数值 相 乘 , 在 计算 机 精度 不 够 时 这 就 会 导致 下 洪 错 误 , 使 相 乘 结 果 为 
0。 对 于 本 例 而 言 ， 这 会 导致 两 个 性 别 的 似 然 值 为 均 0， 从 而 得 出 错误 的 预测 结 


为 了 解决 这 一 问题 ， 我 们 将 计算 对 数 概率 。 假 设 有 两 个 值 a 和 pb， 那么 log(axb) 等 于 
log(a)+log(b) 。 小 概率 的 对 数 是 负 值 , 不 过 相对 而 言 其 绝对 值 更 大 。 例如 log(0.000 01) 约 等 于 -11.5。 
这 意味 着 我 们 应 该 把 对 数 概率 相 加 ， 而 不 是 冒 着 出 现下 溢 错 误 的 风险 把 实际 的 概率 相 乘 ， 这 两 种 
方式 的 比较 方法 是 相同 的 〈 值 越 大 ， 似 然 值 越 高 )。 

































































如 果 你 想 从 对 数 概率 反 推 概率 ， 可 以 采用 对 数 运算 的 逆 运 算 ， 求 出 以 自然 对 数 e 
DD 为 底 的 对 数 概率 值 次 震 。 比 如 若 要 从 -11.5 反 推 概率 ， 就 计算 e115， 其 值 约 等 于 
0.000 01。 

使 用 对 数 概率 也 有 不 能 表示 0 值 的 问题 (虽然 把 多 个 0 值 相 乘 也 不 能 解决 这 个 问题 )。 这 是 
因为 log(0) 是 未 定义 的 。 某 些 朴 素 贝 叶 斯 实现 会 把 所 有 单词 计数 加 1 来 规避 此 问题 ， 不 过 也 有 其 
他 解决 办 法 。 这 是 平滑 数值 的 一 种 形式 。 在 我 们 的 代码 中 ， 如 果 给 定性 别 下 没有 出 现 某 个 词 , 我 
们 将 直接 返回 一 个 特别 小 的 值 。 


人 前 面 把 所 有 单词 计数 加 ] 的 方法 是 平滑 数据 的 一 种 形式 。 另 一 种 方法 则 是 将 其 初 



































始 化 为 一 个 特别 小 的 值 ， 比 如 10”“， 只 要 不 是 0 就 可 以 ! 
回 到 预测 函数 中 。 我 们 将 从 数据 集中 复制 一 篇 博客 文章 来 测试 它 。 
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new_post = """ Every day should be a half day. Took the afternoon off to 
hit the dentist, and while I was out I managed to get my oil changed, too. 
Remember that business with my car dealership this winter? Well, consider 
this the epilogue. The friendly fellas at the Valvoline Instant Oil Change 
on Snelling were nice enough to notice that my dipstick was broken, and the 
metal piece was too far down in its little dipstick tube to pull out. Looks 
like I'm going to need a magnet. Damn you, Kline Nissan, daaaaaaammmnnn 
Yooouuuu.... Today I let my boss know that I've submitted my Corps 
application. The news has been greeted by everyone in the company with a 
level of enthusiasm that really floors me. The back deck has finally been 
cleared off by the construction company working on the place. This company, 
for anyone who's interested, consists mainly of one guy who spends his days 
cursing at his crew of Spanish-speaking laborers. Construction of my deck 
began around the time Nixon was getting out of office. 


用 下 面 的 代码 执行 预测 。 

nb_predict (model, new_post) 

预测 结果 是 male (男性 )， 对 本 例 而 言 是 正确 的 。 我 们 当然 不 会 只 用 一 份 样本 测试 模型 。 我 
们 用 文件 名 开头 是 51 的 文件 训练 模型 ， 因 为 涉及 的 样本 并 不 多 ， 所 以 不 能 期 待 准确 率 有 多 高 。 

首先 要 做 的 就 是 用 更 多 样本 训练 模型 。 我 们 将 文件 名 以 6 或 7 开头 的 文件 作为 测试 数据 集 ， 
然后 将 其 他 文件 作为 训练 样本 。 

在 命令 行 中 进入 你 的 数据 文件 夹 (ca <your_gdata_folder> )， 其 中 会 有 blogs 文件 夹 ， 
复制 这 个 文件 夹 中 的 内 容 到 一 个 新 文件 夹 中 。 

为 训练 数据 集 新 建 一 个 文件 夹 。 

mkdir blogs_train 

把 文件 名 开头 是 4 或 8 的 文件 从 原始 数据 集 移 动 到 训练 数据 集中 。 


cp blogs/4* blogs_ train/ 
cp blogs/8* blogs_ train/ 


然后 为 测试 数据 集 新 建 一 个 文件 夹 。 
mkdir blogs_test 
把 文件 名 开头 是 6 或 7 的 文件 从 原始 数据 集 移动 到 测试 数据 集中 。 


cp blogs/6* blogs_test/ 
cp blogs/7* blogs_test/ 


然后 ,对 训练 数据 集中 的 所 有 文件 运行 博客 文章 的 提取 过 程 。 然 而 这 步 计算 任务 很 重 ， 比 起 
用 自己 的 系统 , 我 们 更 应 该 采用 云 服务 的 基础 设施 。 为 此 , 我 们 要 把 解析 任务 迁移 到 亚马逊 的 基 
础 设施 上 。 


像 之 前 一 样 运行 下 面 的 命令 行 。 唯 一 的 区 别 是 , 这 次 用 了 一 个 不 同文 件 夹 下 的 输入 文件 参与 Ee 
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训练 。 在 运行 下 面 的 代码 之 前 ， 要 删除 博客 文章 文件 夹 和 模型 文件 夹 下 的 所 有 文件 。 


$ python extract posts.py ~/Data/blogs 


train --no-output 


train --output dir=/home/bob/Data/blogposts 


sh 叶 斯 模型 的 训练 。 此 处 的 代码 运行 需要 数 小 时 。 除 非 你 的 系统 性 能 足够 强劲 ， 





否则 你 可 能 不 想 在 本 


运行 该 代码 。 如 果 确 实 如 此 ， 请 跳 至 下 一 节 。 


$ python nb train.py ~/Data/blogposts train/ --output-dir=/home/bob/models/ 


--no-output 


我 们 要 在 测试 训练 集中 的 各 个 博客 文件 上 测试 。 要 提取 这 些 文件 ， 依 然 要 使 用 extract_ 


posts .py 中 的 MapReduce 任务 ， 只 是 这 


DY 
-O00Uutput 


这 次 要 把 输出 文件 保存 到 不 同 的 文件 夹 中 。 


hon extract_ posts.py ~/Data/blogs_test-output-dir=/home/bob/Data/blogposts_test 


回 到 Jupyter Notebook 中 ， 列 出 所 有 输出 的 测试 文件 。 


testing_folder = 





testing_filenames = 


[] 


os.path.join(os.path.expanduser ("~"), 
"blogposts_testing") 


"Data", 


for filename in os.listdir(testing_ folder): 


testing_filenames.append(os.path.join(testing_folder., 


预测 函 
所 以 要 将 该 步 实 现 为 一 个 生成 器 。 生 成 器 的 yiela 语句 返回 实际 性 别 和 预测 性 别 。 


提取 每 个 文件 中 的 性 别 和 文档 , 然后 调用 
多 内 存 ， 





filename) ) 


数 。 因 为 文档 数量 很 多 ， 且 我 们 不 想 占 用 太 


def nb _ predict _ many (model, input_filename): 


with open(input_filename) as inf: 


for line in inf: 


# 去 掉 前 导 和 末尾 的 空格 


tokens = line.split() 
actual_gender = eval (tokens[0]) 
blog_post = eval(" ".Jjoin(tokens [1: 


yield actual_gender, 


然后 


female (女性 ),。 为 了 使 用 scikit-learn 中 的 
1 和 0。 我们 先 用 布尔 表达 式 测试 怕 
y_true [] 


y_pred [] 
for actual_gender, predicted_ gender 





nb_predict (model, 


， 记 录 整 个 数据 集 的 预测 性 别 和 实际 怕 


E 别 是 否 为 女 和 


] ) ) 

blog_post) 

FE 别 。 此 处 的 预测 值 要 么 是 male ( 男性 ) 要 么 是 
f1_score 函数 ， 我 们 需要 把 这 两 个 性 别 转换 为 
然后 用 NumPy 把 布尔 值 转换 为 int。 

















9 





in nb_predict many (model, testing_ filenames[0]): 








y_true.append(actual_ gender == "female") 
y_pred.append (predicted_ gender == "female") 
y_true = np.array (y_true, dtype='int') 
y_pred = np.array (y_pred, dtype='int') 
现在 , 用 scikit-learn 中 的 Fi score 检验 结果 的 质量 。 
from sklearn.metrics import f1_score 





ha 


.4f}".format (fl1_scorel(ly_true, 


y_pred, pos_label=None))) 





12.8 在 亚马逊 EMR 基础 设施 上 训练 239 
































结果 是 0.78, 相当 合理 。 我 们 可 以 用 更 多 数据 改善 效果 , 不 过 要 处 理 更 多 数据 就 需要 性 能 
加 强大 的 基础 设施 。 


12.8 ”在 亚马逊 EMR 基础 设施 上 训练 
我 们 要 用 亚马逊 的 Elastic Map Reduce ( EMR ) 基础 设施 来 运行 数据 解析 与 模型 构建 的 任务 。 


为 此 ， 我 们 要 先 在 亚马逊 存储 云 上 建立 一 个 存储 桶 〈bucket )。 在 你 的 Web 浏览 器 中 访问 
http://console.aws.amazon.com/s3 打开 亚马逊 S3 控制 台 , 然后 点 击 Create Bucket。 记 住 存储 桶 的 
名 称 ， 之 后 我 们 会 用 到 它 。 


以 右键 点 击 新 存储 桶 ， 并 选择 Properties。 然 后 ， 修 改 权 限 ， 为 所 有 人 (everyone ) 授予 
全 部 访问 权限 。 一 般 而 言 ， 这 不 是 好 的 安全 实践 ， 而 且 作 者 建议 你 在 完成 本 章 内 容 后 修改 访问 权 
限 。 你 可 以 通过 设置 亚马逊 服务 中 的 高 级 权限 允许 你 自己 的 脚本 访问 , 同时 保护 数据 免 遭 第 三 方 
访问 。 

以 左 键 点 击 存储 桶 将 其 打开 ， 然 后 点 击 Create Folder 以 创建 新 文件 夹 。 之 后 ， 把 新 文件 夹 
命名 为 plogs_train。 我 们 将 把 训练 数据 上 传 到 这 个 文件 夹 中 ， 然 后 用 云 服 务 处 理 它们 。 

我 们 要 在 你 的 计算 机 上 使 用 亚马逊 AWS CLI， 它 是 操作 亚马逊 服务 的 命令 行 接口 。 

用 下 面 的 命令 安装 。 


sudo pip install awscli 





































































































遵循 http://docs.aws.amazon.com/cli/latest/userguide/cli-chap-getting-set-up.html 的 说 明 为 该 程 
序 设置 凭据 。 


现在 我 们 要 把 数据 上 传 到 新 存储 桶 中 。 首 先 要 创建 数据 集 ， 即 所 有 文件 名 不 以 6 和 7 开头 的 
博客 文件 。 虽然 有 许多 巧妙 的 方法 可 以 用 于 复制 , 但 是 并 没有 值得 推荐 的 跨 平 台 方 法 。 因 此 我 们 
只 需 简 单 地 复制 所 有 文件 ， 然 后 从 训练 数据 集中 删除 文件 名 以 6 和 7 开头 的 文件 。 


cp -R ~/Data/blogs ~/Data/blogs_ train large 
rm ~/Data/blogs_train large/blogs/6* 
rm ~/Data/blogs_train large/blogs/7* 


下 一 步 ， 把 数据 上 传 到 亚马逊 S3 存储 桶 中 。 注 意 ， 这 一 步 不 仅 会 需要 一 些 时 间 ， 还 会 消耗 
数 百 MB 的 数据 流量 。 如 果 目 前 网 速 较 慢 ， 你 就 应 该 找 一 个 网 速 较 快 的 地 方 完成 这 一 步 。 


aws S3 cp ~/Data/blogs_train large/ s3://ch12/blogs_train_large --recursive 
--exclude "*" 
一 二 二 这 区 开启 LT* nL 


然后 , 用 mrjob 连接 到 亚马逊 EMR ( Elastic Map Reduce ) 服务 。 只 需要 我 们 提供 凭据 ， 它 ~ 
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就 能 完成 所 有 计算 。 参 照 https://pythonhosted.org/mrjob/guides/emr-quickstart.html 上 的 说 明 在 
mrjob 中 设置 亚马逊 凭据 。 


之 后 ， 稍 微调 整 一 下 ， 让 我 们 的 mrjob 能 在 亚马逊 EMR 服务 中 运行 。 我 们 只 需要 设置 - 
开关 参数 为 emr 就 能 让 mrjop 使 用 EMR 服务 ,然后 设置 输入 和 输出 目录 为 我 们 的 S3 容器 。 
为 mrjob 的 默认 设置 是 使 用 算 力 有 限 的 单一 计算 机 , 所 以 它 即便 是 在 亚马逊 的 基础 设施 上 运行 ， 
仍 要 很 长 时 间 。 

$ python extract posts.py -r emr s3://chl2gender/blogs train large/--output-dir= 

Ss3://ch1l2/blogposts train/ --no-output 


$ Python nb _ train.py -r emr s3://ch1l2/blogposts train/ --output-dir=s3://ch12/model/ 
--o-output 




















在 使 用 S3 和 EMR 时 ， 你 会 被 收费 。 虽 然 通常 只 会 有 几 美 元 的 支出 ， 不 过 在 持 
续 运行 任务 或 处 理 更 大 规模 数据 集 时 , 请 留心 费用 问题 。 作 者 运行 过 一 次 规模 非 

PD 常 大 的 任务 ， 总 共 花费 了 20 美元 。 本 例 的 花费 应 该 会 低 于 4 美元 。 尽 管 如 此 ， 
你 仍 可 以 在 https://console.aws.amazon.com/billing/home 处 查看 余额 并 设置 收费 
提醒 。 


你 不 需要 创建 blogposts_train 文件 夹 和 模型 文件 来， 因为 EMR 会 自动 创建 它们 。 实 际 
上 如 果 已 经 有 了 这 两 个 文件 来， 就 会 报错 。 如 果 你 要 重新 运行 本 例 ， 只 需要 给 文件 夹 换 个 名 字 ， 
不 过 两 次 命令 中 的 文件 夹 名 要 一 致 (第 1 行 命令 中 的 输出 目录 即 第 2 行 命令 的 输入 目录 )。 








如 果 你 等 不 及 ,也 可 以 在 一 段 时 间 后 停止 第 1 个 任务 ,只 用 目前 收集 的 训练 数据 。 
& 作者 建议 让 这 个 任务 运行 最 少 15 分 钟 ， 最 好 是 1 个 小 时 以 上 。 如 果 停止 第 2 个 
任务 ,就 没 法 产 出 满意 的 结果 。 第 2 个 任务 的 运行 时 间 是 第 1 个 任务 的 2 到 3 信 。 


如 果 你 有 财力 购买 更 高 级 的 硬件 , mrjob 还 支持 在 亚马逊 基础 设施 上 创建 集群 , 利用 更 多 性 
能 强大 的 计算 硬件 。 你 可 以 在 命令 行 中 指定 集群 中 计算 机 的 类 型 和 数量 ， 并 在 集群 中 运行 任务 ， 
例如 ， 使 用 下 面 的 命令 用 16 台 cl.medium 计算 机 提取 文本 。 


$ python extract posts.py -r emr s3://chapter12/blogs train large/blogs/ -- 
output-dir=s3://chapter1l2/blogposts train/ --no-output --instance-type cl1.medium 
--num-core-instances 16 


此 外 ,你 可 以 单独 创建 集群 ， 把 任务 重新 附加 到 这 些 集群 中 。 要 记得 , 越 高 级 的 
选项 就 越 会 使 用 到 mrjob 和 亚马逊 AWS 基础 设施 的 高 级 特性 ,这 意味 着 要 想 获 

外 得 高 性 能 的 处 理 能 力 , 就 需要 深入 了 解 这 两 种 技术 。 如 果 运 行 了 更 多 实例 或 采用 
了 性 能 更 强劲 的 硬件 ， 那 么 你 的 花费 将 更 高 。 


现在 回 到 S3 控制 台 ， 从 存储 桶 中 下 载 输 出 模型 并 保存 到 本 地 ， 然 后 返回 Jupyter Notebook， 
并 在 其 中 使 用 这 份 新 模型 。 在 这 里 要 重新 输入 代码 ， 区 别 在 于 换 用 了 新 模型 。 
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aws_model_filename = os.path.join(os.path.expandqduser("~")，"modqel1s"， 
"aws_model") 

aws_model = load model (aws_model_filename) 

y_true = [] 

y_pred = [] 

for actual_gender, predicted gender in nb predict_ many (aws_model, 
testing_filenames[0]): 

actual_gender == "female") 

predicted_ gender == "female") 

y_true = np.array (y_true, dtype='int') 

y_pred = np.array (y_pred, dtype='int') 

print ("fl1={:.4f}".format (fi1_score(ly_true, y_pred, pos_label=None))) 


更 多 的 数据 带 来 了 更 好 的 结果 ， 最 终结 果 是 0.81。 


y_true.append 
y_pred.append 








如 果实 验 结果 在 意料 之 中 ,请 从 亚马逊 S3 中 移 除 存储 桶 ， 否 则 你 会 因 占 用 存储 
而 被 继续 扣 费 。 


12.9 ”本 章 小 结 


本 章 着 腿 于 运行 大 数据 中 的 任务 。 本 章 的 数据 集 只 有 几 百 MB ， 无 论 以 什么 标准 衡量 ， 都 实 
在 太 小 。 由 于 许多 行业 的 数据 集 要 比 它 大 得 多 ， 因 而 我 们 需要 更 强大 的 处 理 能 力 才能 完成 计算 。 
此 外 ， 我 们 的 算法 可 以 根据 不 同 任务 来 优化 ， 以 适应 未 来 的 可 伸缩 性 需求 。 


我 们 从 博客 文章 中 提取 词 频 ， 以 预测 其 作者 的 性 别 。 我 们 用 mrjob 中 基于 MapReduce 的 实现 
提取 博客 和 词 频 。 在 提取 完成 后 , 我 们 运用 朴素 贝 叶 斯 方法 进行 计算 , 以 预测 新 文章 的 作者 性 别 。 


我 们 只 了 解 了 MapReduce 的 皮毛 ， 还 没有 充分 发 挥 其 在 该 应 用 场景 下 的 全 部 潜力 。 为 加 深 
对 此 部 分 内 容 的 理解 , 请 尝试 把 预测 函数 转换 成 MapReduce 任务 , 即 先 用 MapReduce 训练 模型 ， 
再 用 MapReduce 运行 模型 ， 以 得 出 预测 结果 的 列表 。 你 也 可 以 用 MapReduce 评估 模型 ， 使 最 终 
返回 的 结果 只 是 Fi score。 


我 们 可 以 用 mrjob 库 在 本 地 进行 测试 ， 之 后 再 自动 配置 并 使 用 亚马逊 的 EMR 云 基础 设施 。 


你 也 可 以 采用 其 他 的 云 基础 设施 或 者 甚至 自 定义 构建 的 亚马逊 EMR 集群 来 运行 这 些 MapReduce 
任务 ， 但 这 样 一 来 ， 你 需要 做 一 些 调整 才能 保证 运行 顺利 。 






























































下 一 步 工作 








因为 在 本 书 的 学 习 中 , 不 仅 有 很 多 道路 没有 探索 ， 有 很 多 选项 没有 提 及 ,还 有 很 多 主题 没有 
充分 探讨 ,所 以 在 附录 中 , 我 收集 整理 了 进一步 学 习 的 方向 , 给 那些 想 继续 学 习 以 提升 用 Python 
进行 数据 挖掘 的 能 力 的 读者 做 出 了 提示 。 


附录 补充 了 更 多 关于 数据 挖掘 的 学 习 内 容 , 其 中 不 乏 有 关 扩 展 之 前 工作 的 挑战 。 有 些 挑战 可 
能 只 涉及 小 幅 改 进 ， 有 些 则 工作 量 较 大 。 我 已 经 标记 出 了 那些 明显 更 困难 、 更 复杂 的 任务 。 

















A.1 数据 挖掘 入 门 
本 附录 中 ， 下 面 的 这 些 道路 可 供 读 者 探索 。 


A.1.1 scikit-learn 教 程 
URL: http://scikit-learn.org/stable/tutorial/index.html 


这 是 一 系列 数据 挖掘 的 教程 ， 是 scikit-learn 文档 的 一 部 分 。 该 教程 覆盖 全 面 ， 内 容 详 
实 ,包含 从 对 入 门 数 据 集 的 基础 介绍 到 有 关 最 近 研 究 使 用 的 技术 的 全 面 教程 的 一 系列 内 容 。 因 此 ， 
虽然 通读 整 部 教程 着 实 需要 下 一 番 功 夫 ， 但 这 种 努力 是 值得 的 。 


另外 ， 大 量 算法 已 经 被 实现 为 scikit-learn 兼容 的 版 本 。 虽 然 因 为 种 种 原因 ， 这 些 算法 
并 没有 全 部 包含 在 scikit-learn 中 , 但 scikit-learn 维护 了 一 份 包含 这 些 算法 的 列表 ， 地 
址 为 : https://github.cony/scikit-learn/scikit-learn/wiki/Third-party-projects-and-code-snippets。 









































A.1.2 扩展 Jupyter Notebook 
URL: http://ipython.org/ipython-doc/1/interactive/public server.html 


Jupyter Notebook 是 一 个 功能 强大 的 工具 。 要 扩展 它 有 许多 方法 ， 其 中 之 一 就 是 创建 一 台 服 
务 器 来 运行 笔记 本 ,从 而 解放 你 的 主力 计算 机 。 当 你 的 主力 计算 机 是 小 型 笔记 本 电脑 这 样 性 能 较 
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差 的 设备 ,， 却 有 性 能 较 好 的 其 他 计算 机 可 供 使 用 时 ,这 种 方法 尤为 用。 此 外 ,你 还 可 以 设置 节 
点 执行 并 行 计算 。 








A.1.3 更 多 数据 集 


URL: http://archive.ics.uci.edu/ml/ 

从 互联 网 上 各 种 各 样 的 数据 源 中 能 找到 许多 数据 集 , 其 中 包括 学 术 、 商 业 和 政府 机 构 提供 的 
数据 集 。 加 州 大 学 欧文 分 校 机 器 学 习 ( UCI ML ) 库 就 是 最 佳 选项 之 一 ， 他 们 整理 了 许多 标注 好 
的 数据 集 ， 可 以 满足 你 寻找 数据 集 测试 算法 的 需求 。 请 尝试 在 不 同 的 数据 集中 应 用 OneR 算法 。 

















A.1.4 其 他 评估 指标 
评估 指标 种 类 繁多 ， 下 面 给 出 了 著名 的 几 种 以 供 读者 研究 。 


口 提升 (1ift ) 指标 : https://en.wikipedia.org/wiki/Lift (data_ mining)。 

口 分 段 评 估 指 标 : http://segeval.readthedocs.io/en/latest/。 

口 皮尔 逊 相 关系 数 : https://en.wikipedia.org/wiki/Pearson correlation coefficient。 

口 接受 者 操作 特征 曲线 "下 面积 : http://gim.unmc.edu/dxtests/roc3.htm。 

口 归 一 化 互信 息 : http://scikit-learn.org/stable/modules/clustering.html#mutual-info-score。 


这 些 指 标 都 是 针对 特定 应 用 场景 开发 的 ， 比 如 分 段 估 计 指 标 会 在 考虑 到 段 边 界 的 变化 的 同 


时 , 评估 文本 分 割 成 段 的 准确 率 。 正 确 判断 评估 指标 是 否 适 用 于 当前 应 用 场景 是 保证 数据 挖掘 任 
务 成 功 的 关键 。 























A.1.5 更 多 应 用 思路 
URL: https:/www.datapipeline.com.au/ 


如 果 你 在 寻找 更 多 有 关 数 据 挖掘 应 用 场景 , 尤其 是 商业 应 用 场景 的 思路 , 那么 你 可 以 浏览 此 公 
司 的 博客 。 我 会 在 此 定期 发 布 关于 数据 挖掘 应 用 场景 的 内 容 ， 特 别 是 商业 应 用 场景 下 的 实际 成 果 。 

















A.2 用 scikit-learn 估 计 器 解决 分 类 问题 


最 近邻 算法 的 朴素 实现 相当 慢 , 因为 它 会 检查 所 有 数据 点 对 ,以 找 出 其 中 距离 足够 近 的 那些 。 
在 scikit-learn 中 已 经 实现 了 一 些 改良 版 本 。 














Qa 接受 者 操作 特征 曲线 ( receiver operating characteristic curve，ROC curve ) 最 早起 源 于 雷达 的 信号 检测 理论 ( signal 
detection theory，SDT ) ， 被 广泛 应 用 在 医学 、 心 理学 等 领域 中 。 译 者 注 
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A.2.1 最 近邻 算法 的 伸缩 性 
URL: https://github.conm/jnothman/scikit-learn/tree/pr2532 


比如 , 我 们 可 以 通过 建立 继 寺 ( kd-tree ) 加 速算 法 运行 ( scikit-learn 中 包含 这 一 方法 )。 











另 一 种 提速 方法 是 使 用 局 部 敏感 散 列 ( Locality-Sensitive Hashing，LSH )。 这 是 针对 scikit-learn 
的 一 条 改进 建议 , 在 本 书 编写 时 包 中 尚未 包含 这 一 方法 。 上 面 的 链接 是 scikit-learn 的 一 个 开 
发 分 支 , 它 能 允许 你 在 数据 集中 测试 局 部 敏感 散 列 方法 。 具 体操 作 详 情 请 参看 此 分 支 附 带 的 文档 。 
请 参照 http://scikit-learn.org/stable/install.html 上 的 方法 ， 克 隆 仓库 ， 在 你 的 计算 机 中 安装 最 
新 版 本 。 请 记得 要 用 仓库 中 的 代码 ， 而 不 是 官方 的 源 代码 。 我 建议 你 在 Anaconda 中 安装 这 种 试 
验 性 的 包 ， 以 避免 干扰 系统 中 的 其 他 库 。 























A.2.2 更 复杂 的 流水 线 

URL: http://scikit-learn.org/stable/modules/pipeline.html#featureunion-composite-feature-spaces 

本 书 之 前 用 过 的 流水 线 都 只 有 一 条 数据 流 ， 即 将 前 一 步 的 输出 作为 下 一 步 的 输入 。 

流水 线 也 遵循 转换 器 和 估计 器 的 接口 , 这 使 得 流水 线 的 恋 套 成 为 可 能 。 这 种 结构 不 仅 在 处 理 
非常 复杂 的 模型 时 很 有 用 ， 如 果 按 照 上 面 的 链接 ， 将 其 配合 特征 联合 (feature union ) 功能 使 用 ， 
还 能 实现 更 强大 的 功能 。 它 可 以 一 次 性 提取 多 种 类 型 的 特征 ,然后 将 其 组 合 在 一 起 形成 一 份 新 数 
据 集 。 

















A.2.3 比较 分 类 器 


scikit-learn 中 提供 了 许多 开 箱 即 用 的 分 类 器 。 为 具体 任务 选取 分 类 器 需要 考虑 一 系列 因 
素 。 你 可 以 比较 分 类 器 的 Fl score， 观 察 哪 种 方法 更 好 ， 然 后 探究 这 些 分 数 的 偏差 ， 确 定 结果 是 
否 存在 统计 显著 性 。 

一 个 重要 因素 是 这 些 分 类 器 必须 是 在 相同 的 数据 集中 训练 与 测试 的 , 即 其 中 某 个 分 类 融 的 测 
试 数据 集 必须 与 全 部 分 类 絮 的 测试 数据 集 一 样 。 随 机 状态 是 重 现 数据 集 的 重要 因素 , 我 们 用 它 来 
确保 数据 集 一 致 。 






































A.2.4 自动 学 习 
URL: http://epistasislab.github.io/tpot 


URL: https://github.com/automl/auto-sklearn 
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这 有 点 像 作 弊 ， 不 过 这 些 包 会 替 你 试验 多 种 多 样 的 模型 ， 完 成 数据 控 气 实验， 让 你 免 于 创建 
用 于 测试 不 同类 型 分 类 器 的 大 量 参数 的 工作 流程 ,而 专注 于 其 他 事情 ， 比 如 特征 提取 这 样 至 关 重 
要 的 、 尚 不 能 自动 完成 的 任务 。 

一 般 的 思路 是 ， 先 提取 特征 ， 然 后 把 生成 的 矩阵 传递 给 自动 分 类 算法 (或 回归 算法 )。 它 会 
为 你 搜索 甚至 导出 最 佳 模 型 。 如 果 你 用 的 是 TPOT*， 它 甚至 会 给 出 从 头 创建 模型 的 Python 代 码 ， 
并 且 无 须 在 你 的 服务 器 上 安装 TPOT。 












































A.3 用 决策 树 预测 获胜 球 队 
URL: http://pandas.pydata.org/pandas-docs/stable/tutorials.html 


pandas 是 一 个 绝妙 的 库 ， 因 为 通常 需要 写 的 数据 加 载 功能 在 pangas 中 都 已 经 实现 好 了 。 
你 可 以 从 pangas 的 官方 教程 中 了 解 更 多 详情 。 


Chris Moffitt 写 过 一 篇 优秀 的 博客 文章 ， 概 述 了 Excel 的 常用 操作 以 及 这 些 操作 在 pandas 
中 的 相应 实现 方法 ， 详 见 : http://pbpython.com/excel-pandas-comp.html。 


你 也 可 以 用 pandas 处 理 大 规模 的 数据 集 。 在 Stack Overflow 上 有 一 个 问题 ， 其 中 用 户 Jeff 
的 解答 就 概述 了 这 一 过 程 ， 详 见 : http://stackoverflow.com/a/14268804/307363。 
































另外 , 有 一 份 不 错 的 pandas 教程 , 其 作者 是 Brain Connelly, 详 见 : http://bconnelly.net/2013/ 
10/summarizing-data-in-python-with-pandas/。 


A.3.1 更 复杂 的 特征 
URL: http:/www.basketball-reference.com/teams/ORL/2014 roster _ status.html 
规模 更 大 的 练习 ! 


随 着 比赛 的 进行 , 球 队 成 员 会 定期 更 换 。 如 果 几 名 最 佳 球员 突然 受伤 ,， 那么 本 来 能 轻松 取胜 
的 比赛 就 会 变 成 一 场 硬 会。 你 可 以 从 篮球 参考 网 站 找到 球 队 的 球员 名 单 。 例 如 从 上 面 的 链接 中 你 
就 能 找到 2013~2014 赛季 奥兰多 魔术 队 (Orlando Magic ) 的 名 单 。 所 有 NBA 球 队 的 类 似 数据 都 
能 在 该 网 站 找到 。 


编写 代码 ， 集 成 球 队 调整 情况 。 据 此 增加 新 特征 能 大 幅度 提升 模型 性 能 。 不 过 ,完成 这 项 任 
务 需 要 下 点 功夫 。 






























































QD TPOT 是 一 个 Python 自动 机 器 学 习 包 工具 ， 它 可 以 用 遗传 算法 来 优化 机 器 学 习 流水 线 。 详 情 见 官方 网 站 : http:// 
epistasislab.github.io/tpot/。 一 一 译 者 注 
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A.3.2 Dask 
URL: http://dask.pydata.org/en/latest/ 


如 果 你 既 想 借助 于 pandas 的 特性 又 想 增强 它 的 伸缩 性 ， 那 么 Dask 就 很 合适 。Dask 提供 了 并 
行 版 本 的 NumPy 数组 、Pandas DataFrames 和 任务 调度 ,通常 , 它 的 接口 几乎 与 NumPy 或 pandas 
中 的 原始 实现 一 模 一 样 。 








A.3.3 研究 

URL: https://scholar.google.com.au/ 

规模 更 大 的 练习 ! 

如 你 想象 的 一 样 ， 现 今 已 经 有 了 很 多 预测 NBA 比赛 乃至 所 有 运动 项 目的 研究 。 请 在 谷歌 学 
术 中 搜索 “< 体育 项 目 > 预测 ”， 以 查找 预测 你 青睐 的 < 体育 项 目 > 的 研究 。 
A.4 用 杀 和 性 分 析 推 荐 电影 

有 许多 基于 推荐 的 数据 集 很 值得 研究 ， 不 过 每 个 数据 集 都 有 自己 的 问题 。 











A.4.1 ”新 数据 集 

URL: http://www2.informatik.uni-freiburg.de/~cziegler/BX/ 

规模 更 大 的 练习 1! 

有 许多 基于 推荐 的 数据 集 很 值得 研究 ， 不 过 每 个 数据 集 都 有 自己 的 问题 。 例 如 Book-Crossing 
( 图 书 漂流 ) 数据 集 包 含 278 000 余 名 用 户 和 一 百 万 条 以 上 的 评分 。 其 中 的 一 些 评分 是 显 式 的 (用 
户 给 出 评分 )， 另 一 些 则 是 隐 式 的 。 而 这 些 隐 式 评分 的 权重 很 可 能 不 应 该 与 显 式 评分 一 样 高 。 音 
乐 网 站 www.last.fm 发 布 过 一 份 优秀 的 音乐 推荐 数据 集 : https://www.upf.edu/web/mdm-dtic/-/-text- 


kgrec-music-music-recommendation-dataset?inheritRedirect=true&redirect=%2Fweb%2Fmdm-dtic%2 
Fdatasets#.XYA2v1IzbDA。 



































还 有 一 个 笑话 推荐 数据 集 ， 见 : http://eigentaste.berkeley.edu/dataset/。 


A.4.2 ”等 价 类 变换 算法 
URL: http://www.borgelt.net/eclat.html 


本 章 实现 的 Apriori 算法 是 最 为 出 名 的 关联 规则 挖掘 算法 ， 但 它 不 见得 是 最 好 的 关联 规则 控 
掘 算法 。 等 价 类 变换 算法 不 但 更 新 ， 而 且 其 实现 相对 更 简单 。 
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A.4.3 协同 过 滤 
URL: https://github.com/python-recsys 


若 要 深入 研究 推荐 引擎 ， 就 要 探究 其 他 格式 的 推荐 ， 比 如 协同 过 滤 。 这 个 库 不 仅 介绍 了 算法 
与 实现 的 相关 背景 ,还 附带 了 一 些 教程 .这 里 有 一 篇 综述 文章 : http://blogs.gartner.com/martin-kihn/ 
how-to-build-a-recommender-system-in-python/。 











A.5 特征 与 scikit-learn 转 换 器 
在 我 看 来 ， 以 下 主题 也 与 深入 理解 如 何 用 转换 器 提取 特征 有 关 。 





A.5.1 增加 噪声 


本 书 已 经 介绍 了 移 除 噪 声 以 改进 特征 的 方法 ,不 过 , 向 某 些 数据 集中 添加 噪声 也 能 提升 性 能 。 
原因 很 简单 , 噪声 可 以 强制 分 类 器 生成 更 一 般 化 的 规则 , 防止 过 拟 合 的 发 生 ( 不 过 如 果 噪 声 太 多 ， 
模型 就 会 过 于 一 般 化 )。 洽 试 实现 一 个 能 为 数据 集 添 加 给 定数 量 噪声 的 转换 角 ， 并 在 UCI ML 的 
某 些 数据 集中 测试 ， 观 察 能 否 提升 其 在 测试 数据 集中 的 性 能 。 

















A.5.2 Vowpal Wabbit 
URL: http://hunch.net/~vw/ 


Vowpal Wabbit 是 一 个 精妙 的 项 目 ， 为 基于 文本 的 问题 提供 了 非常 快速 的 特征 提取 功能 。 
为 它 具 备 Python 封装 的 实现 ， 所 以 我 们 可 以 用 Python 代码 调用 它 。 请 在 大 规模 数据 集中 试验 它 
的 功能 。 


























A.5.3 word2vec 
URL: https://radimrehurek.com/gensim/models/word2vec.html 


词 艇 和 人 (word embedding ) 因 在 许多 文本 挖掘 任务 中 表现 出 色 ， 而 受到 研究 界 和 业界 的 广泛 
关注 。 这 项 技术 比 词 袋 模型 要 复杂 一 些 ， 其 创建 出 的 模型 规模 也 更 大 。 在 数据 规模 较 大 时 ， 词 内 
和 人 是 绝 佳 的 特征 ， 而 在 数据 规模 更 小 的 某 些 场景 中 它 也 有 所 助 益 。 


























A.6 用 朴素 贝 叶 斯 算法 探索 社交 媒体 
在 完成 本 章 内 容 后 ， 请 考虑 以 下 几 点 。 
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A.6.1 垃圾 信 息 检测 
URL: http:/scikit-learn.org/stable/modules/model evaluation.html#scoring-parameter 


你 可 以 用 本 章 的 概念 尝试 创建 一 种 垃圾 信息 检测 的 方法 , 该 方法 可 以 在 查看 社交 媒体 上 发 布 
的 内 容 后 判断 其 是 否 为 垃圾 信息 。 请 首先 创建 一 份 包含 垃圾 信息 和 非 垃 圾 信息 内 容 的 数据 集 ， 
实现 文本 挖掘 算法 ， 然 后 评估 这 些 算法 。 


垃圾 信息 检测 的 一 个 重要 指标 就 是 假 阳 性 和 假 阴 性 的 比率 。 许 多 人 宁愿 收 到 几 条 漏网 的 垃圾 
信息 ,也 不 愿意 因 垃 圾 信息 过 滤器 过 于 激进 而 错过 有 用 的 消息 。 为 达成 此 需求 ， 你 可 以 使 用 网 格 
搜索 方法 并 用 Fi score 准则 来 对 其 进行 评估 。 上 具体 操作 见 上 面 的 链接 。 
























































A.6.2 ”自然 语言 处 理 与 词性 标注 
URL: http://www.nltk.org/book/ch05.html 


比 起 其 他 领域 所 应 用 的 语言 学 模型 , 本 音 所 使 用 的 是 相当 轻 量 的 技术 。 比 如 词性 标注 有 助 于 
消除 同形 异 义 词 的 歧义 ， 提 高 结果 的 准确 率 。NLTK 中 就 包含 这 一 功能 。 
































A.7 用 图 挖掘 实现 推荐 关注 
完成 本 章 内 容 后 ， 请 阅读 下 列 内 容 。 





A.7.1 更 复杂 的 算法 
URL: https:/www.cs.cornell.edu/home/kleinber/link-pred.pdf 
规模 更 大 的 练习 ! 


针对 预测 包括 社交 网 络 在 内 的 图 中 连接 情况 的 问题 已 经 有 了 广泛 的 研究 。 例 如 David 
Liben-Nowel 和 Jon Kleinberg 就 发 表 过 关于 此 主题 的 论文 ， 为 更 复杂 的 算法 提供 了 更 大 的 空间 。 
详情 见 上 面 的 链接 。 





A.7.2 NetworkX 
URL: https://networkx.github.io/ 


如 果 你 将 更 多 地 使 用 图 和 网 络 ， 就 值得 花 点 时 间 深 入 了 解 NetworkX 包 ， 因 为 其 中 不 但 有 不 
错 的 可 视 化 选项 ， 而 且 其 算法 实现 也 很 出 色 。 此 外 ， 还 有 一 个 叫 作 SNAP 的 库 ， 它 也 有 Python 
封装 的 版 本 ， 详 情 见 http:/snap.stanford.edu/snappy/index.html。 
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A.8 用 神经 网 络 识别 验证 码 


你 可 能 也 会 对 下 面 的 主题 感 兴趣 。 


A.8.1 更 好 (更 坏 ?) 的 验证 码 
URL: http://scikit-image.org/docs/dev/auto _ examples/applications/plot_ geometric.html 
规模 更 大 的 练习 ! 


现今 一 般 使 用 的 验证 码 比 本 章 示例 中 所 识别 的 验证 码 要 复杂 。 你 可 以 用 下 面 这 些 技术 创建 更 
多 复杂 的 变 体 。 


口 应 用 scikit-image 中 那些 不 同 的 变形 〈 见 上 面 的 链接 ) 
口 用 不 同 的 颜色 以 及 不 好 转换 成 灰 度 模式 的 颜色 
口 在 图 像 中 添加 线条 或 其 他 形状 : http://scikit-image.org/docs/dev/api/skimage.draw.html 














A.8.2 深度 神经 网 络 


因为 这 种 技术 很 容易 欺骗 本 章 的 实现 , 所 以 我 们 的 方法 需要 一 些 改进 。 请 尝试 本 书 使 用 过 的 
一 些 深度 神经 网 络 。 不 过 ,网 络 的 规模 越 大 ， 所 需 数据 也 越 多 ， 因 此 为 了 获得 良好 的 性 能 ， 生 成 
样本 的 数量 也 要 多 于 之 前 的 数 千 个 。 生 成 这 些 数 据 集 时 , 会 产生 大 量 可 独立 执行 的 小 任务 , 这 使 
得 并 行 计算 大 有 用 武之 地 。 

扩充 数据 集 的 一 种 好 思路 是 创建 现 有 图 片 的 变 体 。 这 类 方法 同样 可 以 用 于 其 他 数据 集 。 你 可 
以 对 图 片 进行 上 下 翻转 、 反 常规 裁剪 、 添 加 噪声 、 模 糊 图 像 和 随机 把 像素 涂 成 黑色 等 操作 。 












































A.8.3 强化 学 习 
URL: http://pybrain.org/docs/tutorial/reinforcement-learning.html 


虽然 强化 学 习 已 经 出 现 了 很 长 时 间 , 但 它 正 成 为 数据 挖 气 领域 备 受 关注 的 下 一 个 重要 领域 ! 
PyBrain 中 有 一 些 强 化 学 习 算法 ， 值 得 在 本 章 的 数据 集 (或 者 其 他 数据 集 ) 中 试验 一 下 。 





A.9 作者 归属 问题 
当 涉及 作者 归属 问题 时 ， 请 阅读 以 下 主题 。 
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A.9.1 增 大 样本 


在 安然 公司 的 案例 中 ,本 书 只 使 用 了 整个 数据 集 的 一 部 分 。 而 该 数据 集中 可 用 数据 颇 丰 。 虽 
然 增加 作者 的 数量 可 能 会 导致 准确 率 下 降 , 但 用 类 似 的 方法 可 以 进一步 提高 准确 率 。 用 网 格 搜索 
尝试 不 同 的 元 语法 值 和 不 同 的 支持 向 量 机 参数 ， 以 期 在 作者 数 更 多 时 取得 更 好 的 效果 。 


























A.9.2 博客 数据 集 

第 12 章 中 用 过 的 博客 数据 集 提供 了 基于 作者 的 类 别 ( 每 个 博客 ID 代表 一 位 作者 )。 在 这 份 
数据 集中 也 可 以 采用 类 似 的 方法 进行 测试 。 此外, 还 有 性 别 、 年龄 、 行 业 和 星座 等 其 他 类 别 可 供 
测试 。 基 于 作者 的 方法 能 胜任 这 些 分 类 任务 吗 ? 











A.9.3 局 部 元 语法 
URL: https:/github.com/robertlayton/authorship_ tutorials/blob/master/LNGTutorial.ipynb 


另外 , 还 有 局 部 n 元 语法 形式 的 分 类 器 。 它 可 以 针对 每 位 作者 ， 而 不 是 从 整个 数据 集 的 全 局 
角度 选取 最 佳 特征 。 本 书 作者 写 了 一 份 关 于 局 部 n 元 语法 的 作者 归属 问题 的 教程 , 详情 见 上 面 的 
链接 。 

















A.10” 聚 类 新 闻 文章 
请 不 妨 略 读 下 面 的 主题 。 


A.10.1 聚 类 的 评估 


聚 类 算法 的 评估 确实 是 个 难题 : 一 方面 , 我 们 大 概 能 看 出 好 的 聚 类 复 是 什么 样 的 ; 另 一 方面 ， 
如 果 我 们 确实 知道 什么 样 的 聚 类 是 好 的 ,就 应 该 标注 样本 并 采用 有 监督 的 分 类 需 ! 关于 该 主题 的 
文章 有 很 多 , 这 里 有 一 个 关于 该 主题 的 幻灯 片 , 详细 介绍 了 这 些 挑战 : http://www.cs.kent.edu/~jin/ 
DMO8/ClusterValidation.pdf。 











此 外 , 关于 该 主题 , 还 有 一 篇 有 点 老 却 非常 详实 的 论文 : http://web.itu.edu.tr/sgunduz/courses/ 
verimaden/paper/validity_survey.pdf。 


scikit-learn 包 中 有 大 量 的 评估 指标 , 具体 描述 见 概 览 页 面 的 链接 : http://scikit-learn.org/ 
stable/modules/clustering.html#clustering-performance-evaluation。 

使 用 其 中 的 一 些 方法 ， 你 就 能 评估 出 哪些 参数 会 让 聚 类 的 效果 更 好 。 像 在 分 类 任务 中 一 样 ， 
使 用 网 格 搜索 就 能 从 中 找 出 可 以 使 评估 指标 最 大 化 的 参数 。 
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A.10.2 ”时 域 分 析 

规模 更 大 的 练习 ! 

本 章 所 开发 的 代码 在 几 个 月 内 都 能 重新 运行 。 只 要 向 各 个 聚 类 簇 添加 标签 , 你 就 能 跟踪 随 着 
时 间 推 移 仍 保持 活跃 的 主题 , 从 时 间 上 纵向 掌握 当前 世界 新 闻 的 热门 主题 。 你 可 以 考虑 通过 调整 
互信 息 指标 比较 聚 类 得 ,前 面 的 scikit-learn 文档 中 就 有 相关 内 容 的 链接 。 观 察 1 个 月 后 、2 
个 月 后 、6 个 月 后 乃至 1 年 后 聚 类 禾 会 出 现 怎样 的 变化 。 


























A.10.3 ”实时 聚 类 


-均值 算法 能 迭代 训练 , 并 随 着 时 间 而 更 新 , 而 不 像 离散 分 析 那 样 只 能 适用 于 具体 的 时 间 窗 。 
有 许多 方法 可 以 用 于 追踪 聚 类 簇 的 每 一 步 移 动 , 例如 你 可 以 追踪 各 个 聚 类 复 中 的 流行 词 和 每 日 形 
心 的 移动 距离 。 请 牢记 API 访问 速率 限制 。 要 保证 算法 的 结果 最 新 ,你 可 能 只 需要 每 几 个 小 时 检 
查 一 次 新 数据 。 



































A.11 用 深度 神经 网 络 实现 图 像 中 的 对 象 检测 
在 考虑 用 深度 学 习 识 别 对 象 时 ， 下 面 的 主题 也 很 重要 。 





A.11.1 Mahotas 
URL: http://luispedro.org/software/mahotas/ 


Mahotas 是 男 一 款 图 像 处 理 库 ， 其 中 包括 了 更 优秀 、 更 复杂 的 图 像 处 理 技术 。 虽 然 计 算 成 本 
更 高 , 但 这 些 技 术 有 助 于 提高 准确 率 。 不 过 , 许多 图 像 处 理 任务 是 并 行 计算 的 大 展 身手 之 地 。 在 
研究 文献 中 可 以 找到 更 多 关于 图 像 分 类 的 技术 ， 这 篇 调查 论文 就 是 一 个 不 错 的 起 点 : 
http://ijarcce.com/upload/january/22-A%20Survey%200n%20Image%20Classification.pdf。 



































打开 以 下 链接 ， 你 还 能 找到 其 他 图 像 数 据 集 : http://rodrigob.github.io/are_we_there_yet/build/ 
classification datasets_results.html。 


很 多 学 术 及 业界 网 站 上 有 许多 图 像 数 据 集 。 链接 给 出 的 网 站 列 出 了 一 部 分 数据 集 还 有 在 各 个 
数据 集中 表现 最 好 的 算法 。 要 实现 一 些 更 好 的 算法 需要 大 量 的 定制 代码 ， 这 么 做 虽然 付出 很 多 ， 
但 回报 也 很 可 观 。 














A.11.2 Magenta 


URL: https://github.com/tensorflow/magenta/tree/master/magenta/reviews 
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这 个 仓库 中 包含 一 些 值得 一 读 的 高 质量 的 深度 学 习 论文 , 以 及 对 这 些 论文 和 其 所 涉及 的 技术 
的 深度 解读 。 如 果 你 想 深 入 了 解 深 度 学 习 ， 那 么 在 展开 了 解 之 前 请 先 阅 读 这 些 论文 。 








A.12 大 数据 处 理 
以 下 有 关 大 数据 的 资源 也 许 会 有 帮助 。 


A.12.1 Hadoop 课 程 


雅虎 和 谷歌 都 提供 了 优秀 的 Hadoop 课程 。 这 些 课程 能 覆盖 从 人 门 到 进 阶 的 需求 ， 它 们 不 强 
调 使 用 Python， 而 关注 学 习 Hadoop 概念 ， 以 及 把 这 些 概念 应 用 到 Pydoop 或 类 似 库 中 以 取得 优 
异 的 成 果 。 


雅虎 的 教程 : https://developer.yahoo.com/hadoop/tutorial/ 

















谷歌 的 教程 : https://cloud.google.com/hadoop/what-is-hadoop 


A.12.2 Pydoop 


URL: http://crs4.github.io/pydoop/tutorial/index.html 

















Pydoop 是 一 个 运行 Hadoop 任务 的 Python 库 。 它 支持 Hadoop 的 HDFS 文件 系统 ， 而 mrjob 
也 支持 该 功能 。Pydoop 能 给 你 更 多 关于 运行 任务 的 控制 权 。 





A.12.3 推荐 引擎 


构建 一 个 大 规模 的 推荐 引 警 可 以 很 好 地 检验 你 的 大 数据 技能 。Mark Litwintschik 写 过 一 篇 不 
错 的 博客 文章 ， 介 绍 了 用 Apache Spark 大 数据 技术 实现 的 推荐 引擎 : http://tech.marksblogg.com/ 
recommendation-engine-spark-python.html。 








A.12.4 W.IL.L.L 
URL: https://github.com/ironmanSs366/W.L.L.L 
庞大 的 工程 ! 


这 个 开源 的 个 人 助理 程序 就 像 是 钢铁 侠 电 影 中 的 JARVIS。 你 可 以 用 数据 挖掘 技术 为 这 个 项 
目 添 加 功能 , 使 其 学 习 你 日 常 需要 完成 的 一 些 任务 。 虽然 这 项 工程 并 不 简单 , 但 其 中 潜藏 的 生产 
力 值得 你 付出 。 
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A.13 更 多 资源 
以 下 都 是 可 以 从 中 获取 额外 信息 的 好 资源 。 





A.13.1 Kaggle 竞 赛 
URL: www.kaggle.com/ 


Kaggle 会 定期 举办 数据 挖 气 况 赛 ， 这 些 况 赛 通常 都 有 奖金 。 参 与 Kaggle 竞赛 可 以 检验 技能 
水 平 ， 处 理 现 实 中 的 数据 挖 气 问题， 是 一 种 高 效 的 学 习 途 径 。 它 的 论坛 活跃 而 友善 , 分 享 气氛 浓 
郁 ， 你 经 常会 见 到 比赛 排名 前 10 的 选手 发 布 代码 ! 












































A.13.2 Coursera 

URL: www.coursera.org 

Coursear 上 有 许多 关于 数据 挖掘 和 数据 科学 的 课程 。 其 中 许多 课程 很 专业 ， 比 如 大 数据 处 
理 和 图 像 处理 。 吴 恩 达 ( Andrew Ng ) 开设 了 一 门 著 名 的 综合 性 课程 ， 是 绝 佳 的 学 习 起 点 : 
https://www.coursera.org/learn/machine-learning/。 这 门 课程 比 本 书 的 内 容 要 高 深 , 感 兴趣 的 读者 可 
以 从 中 找到 下 一 步 学 习 的 方向 。 


如 果 你 完成 了 上 面 全 部 课程 的 学 习 ， 可 以 尝试 关于 概率 图 模型 ( PGM, probabilistic graphical 


model ) 的 课程 : https://www.coursera.org/course/pgm。 
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在 信息 量 呈 爆炸 性 增长 的 今天 ， 如 何 从 海量 数据 中 获取 有 用 的 信息 已 经 成 为 各 行 各 业 关 注 的 重要 
课题 。 本 书 结合 广 受 欢迎 的 编程 语言 Python， 介 绍 了 从 数据 中 获取 信息 的 重要 途经 一 一 数据 挖掘 。 





从 基础 的 分 类 任务 和 亲 和 性 分 析 ， 到 复杂 的 对 象 检测 问题 和 大 数据 处 理 问 题 ， 本 书 由 浅 入 深 地 介 
绍 了 数据 挖掘 的 基础 知识 ， 涵 盖 了 当今 数据 挖掘 的 大 多 数 任务 。 为 了 增进 理解 ， 书 中 展示 了 文本 、 图 
像 、 图 等 各 种 复杂 数据 结构 的 示例 ， 同 时 提供 了 种 类 繁多 的 Python 库 来 支持 具体 实践 。 第 2 版 更 新 了 
示例 和 代码 ， 并 且 每 一 章 都 引入 了 一 些 新 的 算法 和 技术 。 通 过 本 书 ， 读 者 将 透彻 理解 数据 挖掘 基础 知 
识 ， 掌 握 解决 数据 挖掘 问题 的 最 佳 实践 
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do [ol \4 
图 灵 社 区 : iTuring.cn 
热线 : (010)51095183 转 600 


ET 计算 机 /数据 挖掘 /Python -SBN 978-7-115-92802-9_ 
定价 : 79.00 元 


人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 
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看 完了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编辑 或 作 
译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


